ШІ від Microsoft може імітувати будь-чий голос із 3-секундного зразка
VALL-E AI від Microsoft може імітувати будь-який голос із короткого звукового зразка. Він навіть може зберегти «емоції та акустичне середовище» мовця.
Корпорація Microsoft продемонструвала останнє дослідження штучного інтелекту з перетворенням тексту в мову за допомогою моделі під назвою VALL-E, яка може імітувати чийсь голос лише за трисекундним аудіо зразком. Мова може відповідати не тільки тембру, але й емоційному тону оратора, і навіть акустиці кімнати. Одного разу його можна буде використовувати для високоякісних програм синтезу мовлення, хоча, як і deepfakes, він несе ризики незаконного використання, повідомляє Ars Technica.
У статті дослідники описують, як вони тренували VALL-E на 60 000 годинах мовлення англійською мовою від 7 000 носіїв аудіотеки Meta LibriLight. Голос, який він намагається імітувати, має бути близьким до голосу з навчальних зразків. Якщо це так, VALL-E використовує навчальні дані, щоб зробити висновок, як би звучав цільовий оратор, коли б вимовляв потрібний текст.
Підписуйтеся на наші соцмережі
Результати поки що неоднозначні: одні голоси звучать машинно, а інші напрочуд реалістично. Щоб удосконалити модель, Microsoft планує розширити навчальні дані. Компанія також вивчає способи скорочення незрозумілих або пропущених слів.
Корпорація Microsoft вирішила не робити код відкритим. «Оскільки VALL-E може синтезувати мовлення, яке зберігає ідентичність мовця, це може нести потенційний ризик у неправильному використанні моделі, наприклад, підробка голосової ідентифікації або видавання себе за іншу особу», — заявила компанія.
Раніше стало відомо, що Microsoft розглядає шляхи інтеграції штучного інтелекту від OpenAI в свої додатки Word, Outlook та PowerPoint. При цьому у Word вже додали невідому версію GPT-моделі OpenAI. Вона поліпшує функцію автозаповнювання у документах.