Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ChatGPT тепер працює з голосом та зображеннями

Олександр Тартачний
Олександр Тартачний журналіст
25 вересня 2023 3 хвилин читання

Популярний чат-бот ChatGPT отримав оновлення. Відтепер нейромережа розуміє голосові команди, може відповідати за допомогою синтезованого мовлення, а також розпізнавати, що зображено на фото. SPEKA розповідає, що змінилось у чат-боті, кому доступні нові функції та які обмеження встановила компанія-розробник OpenAI.

Нова версія ChatGPT тепер працює з аудіо та зображеннями Нова версія ChatGPT тепер працює з аудіо та зображеннями

Що вміє нова версія ChatGPT 

Нарешті команда OpenAI дуже значно розширила доступ до своєї моделі GPT-4. Вона вийшла ще у березні 2023, однак до цього моменту користувачі могли переважно використовувати лише текстову частину у випадку передплати платної версії програми

Ще в березневому релізі компанія повідомила, що GPT-4 працюватиме на основі мультимодальних моделей. Це означає, що в алгоритму є мультимодальний словник, у якому частина токенів відповідає за текст, а інші за обробку фото, аудіо тощо. Грег Брокман, технічний директор OpenAI, раніше демонстрував, як GPT-4 обробляв не лише текст, а й зображення. Тоді ж стало зрозуміло, що GPT-4 здатен розпізнавати, що є на зображеннях, добре аналізувати рукописні записи та навіть створювати код для сайту з малюнка схеми. 

Стрим техдиректора OpenAI Грега Брокмана про можливості GPT-4

Голосові можливості створені за допомогою нової моделі, якій достатньо лише зразка записи довжиною у кілька секунд, щоб згенерувати голос, схожий на людський. OpenAI також використовує ще один свій алгоритм Whisper, щоб транскрибувати вимовлені слова в текст.

Як отримати додаткові функції від ChatGPT

Як повідомляють у блозі OpenAI, функції стануть доступні впродовж наступних двох тижнів лише для користувачів версій Plus ($20 на місяць) і Enterprise (для корпоративних замовлень). Голосові команди та аудіосупровід з’явиться на застосунках для iOS і Android, а зображення будуть доступні також у десктопній версії. 

У компанії заявляють, що незабаром функції будуть доступні іншим групам користувачів, зокрема розробникам.

Які обмеження  має ChatGPT у роботі з аудіо та зображеннями 

Нові можливості несуть нові ризики. Наприклад, система, що дозволяє генерувати голос, може бути здатна видавати себе за публічних діячів, й зловмисники використовуватимуть її для шахрайства. Саме з цих причин компанія наразі не дозволяє використання технології в інші способи окрім голосового чату. 

Те, як новий алгоритм сприймає зображення, також перевірили команди тестувальників. Вони зокрема звертали увагу на картинки, які можуть містити дезінформацію або екстремістські меседжі. 

Компанія також свідомо обмежила здатність ChatGPT аналізувати та робити прямі заяви про людей, оскільки алгоритму бракуватиме точності.

Також OpenAI каже про обмеження моделі: вона добре транскрибує англійською, однак не така ефективна при використанні мов, що засновані на нелатинському алфавіті. 

0
Прокоментувати
Інші матеріали

Apple планує інтегрувати Google Gemini в свої пристрої

Вікторія Рудзінська 23 години тому

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 1 липня 2024 08:25

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 1 липня 2024 07:04

Чи може сервісна економіка зробити світ багатим?

Олександр Тартачний 27 червня 2024 14:40

Youtube хоче отримати у лейблів ліцензії на використання музики для навчання свого ШІ

Вікторія Рудзінська 26 червня 2024 21:18