Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ChatGPT тепер працює з голосом та зображеннями

Олександр Тартачний
Олександр Тартачний журналіст
25 вересня 2023 3 хвилин читання

Популярний чат-бот ChatGPT отримав оновлення. Відтепер нейромережа розуміє голосові команди, може відповідати за допомогою синтезованого мовлення, а також розпізнавати, що зображено на фото. SPEKA розповідає, що змінилось у чат-боті, кому доступні нові функції та які обмеження встановила компанія-розробник OpenAI.

Нова версія ChatGPT тепер працює з аудіо та зображеннями Нова версія ChatGPT тепер працює з аудіо та зображеннями

Що вміє нова версія ChatGPT 

Нарешті команда OpenAI дуже значно розширила доступ до своєї моделі GPT-4. Вона вийшла ще у березні 2023, однак до цього моменту користувачі могли переважно використовувати лише текстову частину у випадку передплати платної версії програми

Ще в березневому релізі компанія повідомила, що GPT-4 працюватиме на основі мультимодальних моделей. Це означає, що в алгоритму є мультимодальний словник, у якому частина токенів відповідає за текст, а інші за обробку фото, аудіо тощо. Грег Брокман, технічний директор OpenAI, раніше демонстрував, як GPT-4 обробляв не лише текст, а й зображення. Тоді ж стало зрозуміло, що GPT-4 здатен розпізнавати, що є на зображеннях, добре аналізувати рукописні записи та навіть створювати код для сайту з малюнка схеми. 

Стрим техдиректора OpenAI Грега Брокмана про можливості GPT-4

Голосові можливості створені за допомогою нової моделі, якій достатньо лише зразка записи довжиною у кілька секунд, щоб згенерувати голос, схожий на людський. OpenAI також використовує ще один свій алгоритм Whisper, щоб транскрибувати вимовлені слова в текст.

Як отримати додаткові функції від ChatGPT

Як повідомляють у блозі OpenAI, функції стануть доступні впродовж наступних двох тижнів лише для користувачів версій Plus ($20 на місяць) і Enterprise (для корпоративних замовлень). Голосові команди та аудіосупровід з’явиться на застосунках для iOS і Android, а зображення будуть доступні також у десктопній версії. 

У компанії заявляють, що незабаром функції будуть доступні іншим групам користувачів, зокрема розробникам.

Які обмеження  має ChatGPT у роботі з аудіо та зображеннями 

Нові можливості несуть нові ризики. Наприклад, система, що дозволяє генерувати голос, може бути здатна видавати себе за публічних діячів, й зловмисники використовуватимуть її для шахрайства. Саме з цих причин компанія наразі не дозволяє використання технології в інші способи окрім голосового чату. 

Те, як новий алгоритм сприймає зображення, також перевірили команди тестувальників. Вони зокрема звертали увагу на картинки, які можуть містити дезінформацію або екстремістські меседжі. 

Компанія також свідомо обмежила здатність ChatGPT аналізувати та робити прямі заяви про людей, оскільки алгоритму бракуватиме точності.

Також OpenAI каже про обмеження моделі: вона добре транскрибує англійською, однак не така ефективна при використанні мов, що засновані на нелатинському алфавіті. 

0
Прокоментувати
Інші матеріали

ШІ прискорить відновлення ринку смартфонів

Артем Житкевич 1 грудня 2023 21:05

Уряд США змусив арабських інвесторів вийти з ШІ-стартапу Сема Альтмана

Артем Житкевич 1 грудня 2023 20:32

Amazon представила свій ШІ-генератор зображень Titan Image Generator

Артем Житкевич 30 листопада 2023 21:37

ChatGPT святкує річницю: гайд з роботи та корисні підказки

Олександр Тартачний 30 листопада 2023 15:04

Альтмана відновили на посаді гендиректора OpenAI, а Microsoft увійшла до ради директорів без права голосу

Богдан Камінський 30 листопада 2023 14:30