ChatGPT тепер працює з голосом та зображеннями
Популярний чат-бот ChatGPT отримав оновлення. Відтепер нейромережа розуміє голосові команди, може відповідати за допомогою синтезованого мовлення, а також розпізнавати, що зображено на фото. SPEKA розповідає, що змінилось у чат-боті, кому доступні нові функції та які обмеження встановила компанія-розробник OpenAI.

Що вміє нова версія ChatGPT
Нарешті команда OpenAI дуже значно розширила доступ до своєї моделі GPT-4. Вона вийшла ще у березні 2023, однак до цього моменту користувачі могли переважно використовувати лише текстову частину у випадку передплати платної версії програми.
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
Підписуйтеся на наші соцмережі
Ще в березневому релізі компанія повідомила, що GPT-4 працюватиме на основі мультимодальних моделей. Це означає, що в алгоритму є мультимодальний словник, у якому частина токенів відповідає за текст, а інші за обробку фото, аудіо тощо. Грег Брокман, технічний директор OpenAI, раніше демонстрував, як GPT-4 обробляв не лише текст, а й зображення. Тоді ж стало зрозуміло, що GPT-4 здатен розпізнавати, що є на зображеннях, добре аналізувати рукописні записи та навіть створювати код для сайту з малюнка схеми.
Голосові можливості створені за допомогою нової моделі, якій достатньо лише зразка записи довжиною у кілька секунд, щоб згенерувати голос, схожий на людський. OpenAI також використовує ще один свій алгоритм Whisper, щоб транскрибувати вимовлені слова в текст.
Як отримати додаткові функції від ChatGPT
Як повідомляють у блозі OpenAI, функції стануть доступні впродовж наступних двох тижнів лише для користувачів версій Plus ($20 на місяць) і Enterprise (для корпоративних замовлень). Голосові команди та аудіосупровід з’явиться на застосунках для iOS і Android, а зображення будуть доступні також у десктопній версії.
У компанії заявляють, що незабаром функції будуть доступні іншим групам користувачів, зокрема розробникам.
Які обмеження має ChatGPT у роботі з аудіо та зображеннями
Нові можливості несуть нові ризики. Наприклад, система, що дозволяє генерувати голос, може бути здатна видавати себе за публічних діячів, й зловмисники використовуватимуть її для шахрайства. Саме з цих причин компанія наразі не дозволяє використання технології в інші способи окрім голосового чату.
Компанія також свідомо обмежила здатність ChatGPT аналізувати та робити прямі заяви про людей, оскільки алгоритму бракуватиме точності.
Також OpenAI каже про обмеження моделі: вона добре транскрибує англійською, однак не така ефективна при використанні мов, що засновані на нелатинському алфавіті.