Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

OpenAI навчила ChatGPT бачити зображення та проговорювати текст

25 вересня 2023 3 хвилин читання

Компанія OpenAI анонсувала важливе оновлення для ChatGPT, яке дозволить чатботу бачити зображення, чути аудіофайли та промовляти результат генерування.

За словами розробників, голос та зображення розширять сценарії використання ChatGPT. Наприклад, під час подорожі користувач може сфотографувати пам’ятку та спитати додаткову інформацію. Або асистента можна попросити прочитати казку на ніч для дитини.

Як увімкнути голосове введення у ChatGPT

Щоб почати користуватися голосом, необхідно перейти до SettingsNew Features у мобільному застосунку та обрати voice conversations. Після цього треба торкнутися кнопки навушників, розташованої у верхньому правому куті головного екрана, та обрати один із п’яти запропонованих голосів.

Функція заснована на новій моделі перетворення тексту в мовлення. За словами OpenAI, вона здатна генерувати правдоподібне звучання з тексту і декількох секунд зразка аудіо.

Підписуйтеся на наші соцмережі

Також розробники використовували власну систему розпізнавання мови з відкритим вихідним кодом Whisper, щоб перетворити мовлення у текст.

Як завантажувати зображення у ChatGPT

У ChatGPT можна завантажити одне або декілька зображень. Щоб зосередитися на певній частині світлини, користувач може скористатися інструментом малювання прямо в мобільному застосунку.

Щоб відправити зображення до чатбота, необхідно торкнутися кнопки «Фото» та зробити знімок. Користувачам iOS або Android спочатку треба торкнутися кнопки «Плюс».

Розуміння контексту зображень забезпечується мультимодальними моделями GPT-3.5 та GPT-4. Вони застосовують свої навички мовної аргументації до широкого спектра зображень, як-от фотографії, скриншот та документи.

Безпека голосових функцій та розпізнавання зображень у ChatGPT

Розробники наголосили, що приділили багато уваги безпеці функцій, щоб ними не змогли скористатися шахраї. Для створення голосового асистента компанія співпрацювала з акторами.

Також спеціальна команда протестувала модель оброблення зображень на наявність «галюцинацій» у ChatGPT. Дослідження дозволило розробникам узгодити кілька ключових деталей для відповідального використання.

OpenAI ще раз нагадала про обмеження моделі та не рекомендувала використовувати ChatGPT у випадках підвищеного ризику без належної перевірки. 

Коли голосові функції та завантаження зображень з’являться у ChatGPT

OpenAI поступово розгортає можливості роботи із зображеннями та голосом. За даними розробників, оновлення з’явиться упродовж двох тижнів.

Функції будуть доступні для передплатників тарифів Plus та Enterprise.

Раніше SPEKA писала, що OpenAI анонсувала DALL-E 3.

0
Icon 0

Підписуйтеся на наші соцмережі

Інші матеріали

Секрети успішних публічних виступів: як подолати страх сцени?

Олеся Руденко 20 березня 2025 13:45

Як зацікавити роботодавця за 30 секунд: Elevator Pitch

Олеся Руденко 21 березня 2025 08:41

Операційний менеджмент у стилі ніндзя: як керувати процесами, залишаючись непомітним

Polina Salnikova 20 березня 2025 16:30

Що таке ліквідація у трейдингу та як її уникнути

Alan Roney 20 березня 2025 10:21

Маленька, але потужна: як створити невелику технічну команду, яка замінить пів сотні людей

Сергій Марієха 21 березня 2025 11:54