Головна OpenAI

OpenAI навчила ChatGPT бачити зображення та проговорювати текст

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

25 вересня 2023 3 хвилин читання

Компанія OpenAI анонсувала важливе оновлення для ChatGPT, яке дозволить чатботу бачити зображення, чути аудіофайли та промовляти результат генерування.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

За словами розробників, голос та зображення розширять сценарії використання ChatGPT. Наприклад, під час подорожі користувач може сфотографувати пам’ятку та спитати додаткову інформацію. Або асистента можна попросити прочитати казку на ніч для дитини.

Як увімкнути голосове введення у ChatGPT

Щоб почати користуватися голосом, необхідно перейти до Settings → New Features у мобільному застосунку та обрати voice conversations. Після цього треба торкнутися кнопки навушників, розташованої у верхньому правому куті головного екрана, та обрати один із п’яти запропонованих голосів.

Функція заснована на новій моделі перетворення тексту в мовлення. За словами OpenAI, вона здатна генерувати правдоподібне звучання з тексту і декількох секунд зразка аудіо.

Підписуйтеся на наші соцмережі

Також розробники використовували власну систему розпізнавання мови з відкритим вихідним кодом Whisper, щоб перетворити мовлення у текст.

Як завантажувати зображення у ChatGPT

У ChatGPT можна завантажити одне або декілька зображень. Щоб зосередитися на певній частині світлини, користувач може скористатися інструментом малювання прямо в мобільному застосунку.

Щоб відправити зображення до чатбота, необхідно торкнутися кнопки «Фото» та зробити знімок. Користувачам iOS або Android спочатку треба торкнутися кнопки «Плюс».

Розуміння контексту зображень забезпечується мультимодальними моделями GPT-3.5 та GPT-4. Вони застосовують свої навички мовної аргументації до широкого спектра зображень, як-от фотографії, скриншот та документи.

Безпека голосових функцій та розпізнавання зображень у ChatGPT

Розробники наголосили, що приділили багато уваги безпеці функцій, щоб ними не змогли скористатися шахраї. Для створення голосового асистента компанія співпрацювала з акторами.

Також спеціальна команда протестувала модель оброблення зображень на наявність «галюцинацій» у ChatGPT. Дослідження дозволило розробникам узгодити кілька ключових деталей для відповідального використання.

OpenAI ще раз нагадала про обмеження моделі та не рекомендувала використовувати ChatGPT у випадках підвищеного ризику без належної перевірки.

Коли голосові функції та завантаження зображень з’являться у ChatGPT

OpenAI поступово розгортає можливості роботи із зображеннями та голосом. За даними розробників, оновлення з’явиться упродовж двох тижнів.

Функції будуть доступні для передплатників тарифів Plus та Enterprise.

Раніше SPEKA писала, що OpenAI анонсувала DALL-E 3.

Підписуйтеся на наші соцмережі

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Інші матеріали

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Вікторія Рудзінська 3 години тому

OpenAI вирішила проблему безпеки у ChatGPT для macOS, що дозволяла зловмисникам легко читати чати користувачів у звичайному тексті. Оновлення застосунку тепер шифрує розмови.

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 8 годин тому

Бразильський регулятор захисту даних (ANPD) заборонив Meta тренувати свої моделі штучного інтелекту на бразильських персональних даних, посилаючись на «ризики серйозної шкоди та труднощів для користувачів».

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

У Києві відбудеться конференція «Навігатори інновацій. Змінюй правила гри»

Ольга Топольська 10 годин тому

Juscutum у партнерстві з IT Ukraine Association запрошують на масштабний захід «Навігатори інновацій. Змінюй правила гри»

У Києві відбудеться конференція «Навігатори інновацій. Змінюй правила гри»

Mastodon додав зручну функцію для підписки на журналістів

Владислав Паливода 15 годин тому

Соціальна мережа Mastodon запускає нову функцію, яка зробить більш зручним доступ до новин та інформації. Відтепер з'явиться посилання на автора, яке спрямує користувача на його статті, пише TechCrunch.

Mastodon додав зручну функцію для підписки на журналістів

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Вікторія Рудзінська 2 липня 2024 20:37

Meta представила новий інструмент штучного інтелекту 3D Gen, що дозволяє створювати або ретекстурувати 3D-об'єкти на основі текстових підказок швидше, ніж будь-коли раніше.

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

OpenAI навчила ChatGPT бачити зображення та проговорювати текст

Як увімкнути голосове введення у ChatGPT

Підписуйтеся на наші соцмережі

Як завантажувати зображення у ChatGPT

Безпека голосових функцій та розпізнавання зображень у ChatGPT

Коли голосові функції та завантаження зображень з’являться у ChatGPT

Підписуйтеся на наші соцмережі

Будь в курсі зі SPEKA

Дякуємо, що підписалися на SPEKA. Буде гаряче!

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

У Києві відбудеться конференція «Навігатори інновацій. Змінюй правила гри»

Mastodon додав зручну функцію для підписки на журналістів

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей