Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ChatGPT тепер працює з голосом та зображеннями

Олександр Тартачний
Олександр Тартачний журналіст
25 вересня 2023 3 хвилин читання

Популярний чат-бот ChatGPT отримав оновлення. Відтепер нейромережа розуміє голосові команди, може відповідати за допомогою синтезованого мовлення, а також розпізнавати, що зображено на фото. SPEKA розповідає, що змінилось у чат-боті, кому доступні нові функції та які обмеження встановила компанія-розробник OpenAI.

Нова версія ChatGPT тепер працює з аудіо та зображеннями Нова версія ChatGPT тепер працює з аудіо та зображеннями

Що вміє нова версія ChatGPT 

Нарешті команда OpenAI дуже значно розширила доступ до своєї моделі GPT-4. Вона вийшла ще у березні 2023, однак до цього моменту користувачі могли переважно використовувати лише текстову частину у випадку передплати платної версії програми

Підписуйтеся на наші соцмережі

Ще в березневому релізі компанія повідомила, що GPT-4 працюватиме на основі мультимодальних моделей. Це означає, що в алгоритму є мультимодальний словник, у якому частина токенів відповідає за текст, а інші за обробку фото, аудіо тощо. Грег Брокман, технічний директор OpenAI, раніше демонстрував, як GPT-4 обробляв не лише текст, а й зображення. Тоді ж стало зрозуміло, що GPT-4 здатен розпізнавати, що є на зображеннях, добре аналізувати рукописні записи та навіть створювати код для сайту з малюнка схеми. 

Стрим техдиректора OpenAI Грега Брокмана про можливості GPT-4

Голосові можливості створені за допомогою нової моделі, якій достатньо лише зразка записи довжиною у кілька секунд, щоб згенерувати голос, схожий на людський. OpenAI також використовує ще один свій алгоритм Whisper, щоб транскрибувати вимовлені слова в текст.

Як отримати додаткові функції від ChatGPT

Як повідомляють у блозі OpenAI, функції стануть доступні впродовж наступних двох тижнів лише для користувачів версій Plus ($20 на місяць) і Enterprise (для корпоративних замовлень). Голосові команди та аудіосупровід з’явиться на застосунках для iOS і Android, а зображення будуть доступні також у десктопній версії. 

У компанії заявляють, що незабаром функції будуть доступні іншим групам користувачів, зокрема розробникам.

Які обмеження  має ChatGPT у роботі з аудіо та зображеннями 

Нові можливості несуть нові ризики. Наприклад, система, що дозволяє генерувати голос, може бути здатна видавати себе за публічних діячів, й зловмисники використовуватимуть її для шахрайства. Саме з цих причин компанія наразі не дозволяє використання технології в інші способи окрім голосового чату. 

Те, як новий алгоритм сприймає зображення, також перевірили команди тестувальників. Вони зокрема звертали увагу на картинки, які можуть містити дезінформацію або екстремістські меседжі. 

Компанія також свідомо обмежила здатність ChatGPT аналізувати та робити прямі заяви про людей, оскільки алгоритму бракуватиме точності.

Також OpenAI каже про обмеження моделі: вона добре транскрибує англійською, однак не така ефективна при використанні мов, що засновані на нелатинському алфавіті. 

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

ChatGPT тепер може писати еротичний контент: що змінюється

Вікторія Рудзінська 7 годин тому

OpenAI офіційно відхилила пропозицію Маска на $97,4 млрд

Вікторія Рудзінська 10 годин тому

Meta інвестує в гуманоїдних роботів: чи змінять вони наш побут?

Вікторія Рудзінська 14 лютого 2025 22:40

Favbet Tech на ICE Barcelona 2025: технологічні прориви у сфері iGaming

Анна Старкова 14 лютого 2025 16:37

Apple і Alibaba спільно працюватимуть у сфері ШІ: деталі угоди

Вікторія Рудзінська 13 лютого 2025 16:59