Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ШІ-генератори голосу: що вони можуть і як працюють

Олександр Тартачний
Олександр Тартачний журналіст
30 серпня 2024 8 хвилин читання

За опитуваннямдві третини людей не можуть відрізнити що вони чують: голос реальної людини чи згенерований штучним інтелектом. Розповідаємо, як відбувається синтез мовлення, де це використовують, а також про переваги та загрози технології. 

Переваги та недоліки генерації голосу Переваги та недоліки генерації голосу

Синтез голосу: як це працює 

Моделювати людський голос людство навчилось задовго до штучного інтелекту.  Наприклад, одним із найвідоміших синтезованих голосів усіх часів був WOPR, суперкомп’ютер із фільму «Воєнні ігри» 1983 року. Цікаво, що тоді голос комп’ютера ще не синтезував комп’ютер. Актор Джон Вуд, який озвучував WOPR, читав репліки задом наперед, а отриманий запис обробили у студії, щоб надати йому синтетичного звуку.

Голос WOPR, уривок із фільму Wargames (1983)

Натомість голос Стівена Гокінга вже синтезований машиною. Хоча він досить механічний (створений у 1996-му), Гокінг ніколи не міняв його на щось сучасніше. Він сказав: «Я зберігаю його, тому що я не чув голосу, який мені більше подобається, і тому, що я ототожнив себе з ним».

Тож чипи та програмне забезпечення для синтезу мови не новина. Ранні шанувальники Mac, мабуть, пам’ятають Macintalk (розширення тексту в мовлення або синтезатор мовлення від Apple, яке дозволяє документам Mac «промовляти» текст за допомогою комп’ютеризованих голосів), який випустили ще у 1985-му.  

Більшість із цих пристроїв, аж до середини 2010-х,, використовували базові фонеми для створення мови. Усі слова можна розбити приблизно на 24 приголосні звуки та приблизно 20 голосних. 

Ці звуки були синтезовані або записані, а потім, коли потрібно було «вимовити» слово, фонеми складалися у послідовність і відтворювалися.

Як працює генерація голосу за допомогою штучного інтелекту 

Синтез 

Мало хто розробляє власну технологію генерації голосу з нуля. Більшість основних хмарних сервісів пропонують послуги з генерації голосу як мікросервіс або API для вашої програми. Серед них Google Cloud Text-to-Speech, Amazon Polly, Microsoft Azure AI Speech тощо.

Підписуйтеся на наші соцмережі

Генератори голосу починаються з тексту. Цей текст може бути створений людиною або штучним інтелектом, як-от ChatGPT. Потім введений текст перетворять на людську мову, яка, по суті, є набором звукових хвиль, які можна почути вухом або мікрофоном.

ШІ обробляє згенерований текст і виконує фонетичний аналіз, створюючи звуки мови, які представляють слова в тексті. Нейронні мережі використовують моделі глибокого навчання для отримання та оброблення величезних наборів даних про людську мову. З цих мільйонів прикладів мовлення ШІ може змінювати основні звуки слів, щоб відображати інтонацію, наголос і ритм, роблячи звуки більш природними та цілісними.

Деякі генератори голосу із штучним інтелектом потім ще більше персоналізують вихід, регулюючи висоту та тон, наприклад, щоб створити акценти. 

Розпізнавання голосу 

Розпізнавання мовлення працює навпаки. Алгоритму потрібно захоплювати звуки та перетворювати їх на текст. Як і у випадку з генерацією голосу, хмарні служби пропонують можливості розпізнавання голосу. 

Першим етапом розпізнавання голосу є аналіз звукової хвилі. Тут звукові хвилі, захоплені мікрофоном, перетворюються на цифрові сигнали, приблизно еквівалентні файлам WAV.

Потім цей цифровий сигнал проходить стадію попереднього оброблення, на якій видаляється фоновий шум, а будь-який розпізнаваний звук розбивається на фонеми. 

Далі настає фаза зіставлення моделі, де штучний інтелект використовує великі завчені набори даних, щоб зіставити витягнуті звукові сегменти з відомими шаблонами мовлення. Потім ці шаблони мовлення проходять мовне оброблення, де штучний інтелект об’єднує всі дані, які він може знайти, щоб перетворити звуки на текстові слова та речення. Він також використовує граматичні моделі, щоб додавати найімовірніший варіант слова, яке має лінгвістичний сенс.

Як можна використовувати згенеровані голоси 

1. Оманлива агітація

У січні цього року виборцям у північно-східному штаті Нью-Гемпшир надіслали фальшиве голосове повідомлення, в якому голосом президента США Джо Байдена рекомендувалося не приходити на первинні вибори, на яких обирають кандидатів на президентські вибори у листопаді.

Стіву Крамеру, політичному консультанту, який організував дзвінки, досі загрожує запропонований штраф у розмірі $6 млн Федеральної комісії із зв’язку. Крамер, який заплатив за створення запису, сказав, що він не намагався вплинути на результат праймериз, а хотів висвітлити потенційну небезпеку ШІ та спонукати законодавців до дії.

2. Редагування відео та шахрайство з підробленим голосом

Цей процес називається клонуванням голосу, і він має як добре, так і погане застосування. Наприклад, сервіс редагування відео Descript може клонувати ваш голос. Тож якщо ви редагуєте відео, воно може дублювати ваш голос, щоб повторно не записувати внесені вами зміни. Воно навіть синхронізує ваші рухи губ зі згенерованими словами, тож здається, що ви говорите те, що вводите у редакторі.

Descript Tutorial

Це, звісно, позитив для творців, але й простір для маніпуляцій. Злочинцям не обов’язково викрадати вас насправді, коли можна змонтувати відео, наче ви потрапили у халепу, та вимагати гроші від схвильованих родичів. 

3. Допомога хворим

Подібно до того, як той старий ПК дав голос професору Гокінгу, генерування голосу може стати рішенням для деяких хворих. Каліфорнійський університет розробляє технологію, яка допомагає надати пацієнтам з бічним аміотрофічним склерозом (БАС) можливість говорити.

У проєкті використовується низка технологій, зокрема імплантати мозку, які обробляють нейронні шаблони, ШІ, який перетворює ці шаблони на слова, які хоче сказати пацієнт, і генератор голосу, який говорить справжнім голосом пацієнта. Голос пацієнта з БАС був клонований із записів до того, як хвороба забрала його здатність говорити.

4. Голосові агенти для обслуговування клієнтів

ШІ у колцентрах — дуже складна тема. Ви відчуваєте знеособлення, коли вам потрібно пройти через дерево викликів «натисніть 1 для будь-якої дії». Не дивно, що розчарує чекати ще 40 хвилин, щоб зв’язатися з оператором. А ще коли він не навчений або працює за сценарієм, який не вирішує вашу проблему. 

ШІ у колцентрах може допомогти. Компанія Fair Square Medicare використовує голосові помічники, щоб допомогти літнім людям вибрати правильний план медичного обслуговування. Медична допомога складна, і вибір неочевидний. Люди похилого віку часто не знають, що саме їм потрібно, що викликає роздратування в операторів. Але Fair Square створила генеративну голосову платформу штучного інтелекту на основі GPT-4, яка може скеровувати літніх людей через процес, часто без довгого очікування.

5. Покращені версії персональних асистентів

На черзі такі розумні помічники, як Alexa, Google і Siri. Коли Siri вперше вийшла на ринок у 2011 році, вона була дивовижною з погляду своїх можливостей. Alexa, ще у 2014 році, також була дивовижною.

Попри те що обидва продукти розвивалися, удосконалення з роками відбувалися поступово. Обидва додали певний рівень сценаріїв і керування домом, але жодна з них не може зрівнятися з можливостями голосового чату ChatGPT, особливо під час використання ChatGPT Plus і GPT-4o. У той час як Siri та Alexa мають можливості домашньої автоматизації та автономні пристрої, які можна запустити без смартфона, версія голосового помічника ChatGPT вражає.

Він може підтримувати повні розмови, отримувати відповіді (хоча інколи вигадані), які виходять за межі стандартних і йти за вказівками щодо розмови. Хоча якість голосу Alexa (і меншою мірою Siri та Google Assistant) хороша, вокальні інтонації ChatGPT більш тонкі. 

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

YouTube додав нові ШІ-функції для створення контенту — що відомо

Вікторія Рудзінська 1 годину тому

Google позначатиме зображення створені за допомогою штучного інтелекту

Владислав Паливода 22 години тому

Генеративний штучний інтелект прискорює кліматичну кризу у світі

Владислав Паливода 23 години тому

Топ безплатних ШІ-сервісів для написання текстів українською

Анна Сергієнко 17 вересня 2024 12:11

Виклики інтелектуальної власності в епоху ШІ: FAVBET Tech підбила підсумки участі в IT Ukraine GR Conference 2024

Анна Старкова 17 вересня 2024 12:06