Головна GPT-4o

OpenAI убив Siri, що буде далі?

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

15 травня 2024 7 хвилин читання

«Я відчув, що став свідком убивства Siri разом із цілим поколінням голосових помічників для смартфонів від рук компанії, про яку більшість людей не чула ще два роки тому», — ділиться враженнями від презентації OpenAI Маттео Вонг, редактор The Atlantic.

GPT-4o — швидше, потужніше, дешевше

OpenAI анонсувала свій найновіший продукт — GPT-4o, швидшу, дешевшу та потужнішу версію своєї найдосконалішої великої мовної моделі, яку компанія позиціонує як наступний крок у «природній взаємодії людини із комп’ютером».

Літера «о» означає «omni» (латиною — «все»), що вказує на здатність моделі обробляти текст, мову та відео.

За словами розробників, GPT-4o удвічі швидший за GPT-4, що дає змогу миттєво відповідати на команди користувача і не витрачати час на оброблення. Також ШІ може розпізнавати емоції, щоб відповідати з правильною інтонацією, жартами або навіть сарказмом.

Зображення: OpenAI

Запущена на iPhone у нібито живій демонстрації програма змогла розповісти казку перед сном, зрозуміти, що вона «бачила» через камеру пристрою, та інтерпретувати розмову між носіями різних мов. GPT-4o здатна розпізнавати 50 мов.

Це дійсно вражає, якщо згадати нудні діалоги з попередніми роботами на кшталт Siri. Apple рекламує свого голосового помічника як можливість «робити все, навіть коли у вас зайняті руки». Але будемо відвертими, Siri — це не більше ніж великий каталог всього, що є у вашому смартфоні. Попросить її знайти відповідь на складне запитання, і вона пропонує шукати в інтернеті, спробуйте перекласти щось, вона відкриває перекладач. В епоху штучного інтелекту подібні фокуси перестають бути фокусами і викликають легке роздратування.

GPT-4o — це схоже на кроманьйонця, який майже готовий до перетворення на сучасну людину — поголитися, одягнути костюм, дати в руки смартфон і можна працювати в офісі. А Siri — це вже минула еволюційна форма, що залишається у теплих спогадах.

Найбільші виробники смартфонів визнають це. Маттео Вонг пише, що Apple, яка, як відомо, запізнилася з розвитком штучного інтелекту, веде переговори з OpenAI про внесення функцій ChatGPT у майбутнє оновлення програмного забезпечення для iPhone. Також повідомляється, що компанія провела переговори з Google, щоб розглянути можливість ліцензування Gemini, флагманського продукту пошукового гіганта у галузі ШІ для iPhone. Samsung уже впровадив Gemini у свої новітні пристрої, а Google адаптував свій останній смартфон Pixel 8 Pro спеціально для роботи з Gemini. Тим часом китайські виробники смартфонів змагаються зі своїми американськими колегами у впровадженні генеративного ШІ на своїх пристроях.

Як працює GPT-4o?

Якщо пояснити коротко, то OpenAI спростив процес перетворення вхідних даних у вихідні. У попередніх моделях штучного інтелекту OpenAI голосовий режим використовувався для спілкування з ChatGPT із затримками в середньому 2,8 секунди (GPT-3.5) і 5,4 секунди (GPT-4). Голосовий режим використовував три окремі моделі: одна проста модель перетворює звук на текст, GPT-3.5 або GPT-4 приймає і виводить текст, а третя проста версія перетворює цей текст назад на звук.

«Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації — він не може безпосередньо спостерігати за тоном, кількома динаміками або фоновим шумом, а також не може виводити сміх, спів або виражати емоції», — зазначили в OpenAI.

Тестування перекладу. Зображення: OpenAI

Але з GPT-4o OpenAI зміг об'єднати всі ці функції в єдину модель з наскрізними можливостями для роботи з текстом, зображенням та аудіо, що значно скоротило кількість витраченого часу та оброблюваної інформації.

«Усі вхідні та вихідні дані обробляються однією і тією самою нейронною мережею», — кажуть в OpenAI.

До побачення, ШІ-стартапи

Презентація GPT-4o стала, ймовірно, смертельним ударом не лише для Siri, але й для хвилі стартапів у галузі ШІ, які обіцяють менш орієнтоване на телефон бачення майбутнього. Компанія Humane випускає ШІ-браслет, який кріпиться на одяг користувача і відповідає на усні запитання. Перші користувачі вже розкритикували її за глюки в роботі. Rabbit's R1 — маленька портативна коробочка, яка схожа на зламану іграшку.

Усі ці пристрої мають суттєвий недолік — вони намагаються замінити зручні та звичні смартфони у надії, що смартфони як клас набридли користувачам. Та навіть якщо це й так, чи буде хтось змінювати свій смартфон на щось незрозуміле, але із штучним інтелектом, коли той самий ШІ тепер є у смартфоні з гарною камерою та всіма іншими можливостями?

Найближчі конкуренти OpenAI

OpenAI опублікувала тестові показники GPT-4o у порівнянні з кількома іншими моделями високого класу.

GPT-4 Turbo
GPT-4 (initial release)
Claude 3 Opus
Gemini Pro 1.5
Gemini Ultra 1.0
Llama 3 400B

Зображення: datacamp.com

GPT-4o отримав найвищий бал у чотирьох тестах, хоча його випередили Claude 3 Opus у тесті MSGM та GPT-4 Turbo у тесті DROP. Ці результати вражають і свідчать про перспективність нового підходу до мультимодального навчання.

Рішення OpenAI представити нову, безкоштовну та швидшу велику мовну модель показують, наскільки сильно компанія намагається протистояти конкурентам у галузі генеративного ШІ.

У Google найбільший конкурент у цій сфері — Gemini.

Доступ до Gemini можна отримати у межах преміумплану Google One AI за $19,99 на місяць, який пропонує 2 ТБ сховища, 10-відсоткову знижку на покупки, зроблені в Google Store, і більше можливостей у Gmail, Google Docs, Google Slides та Google Meet.

У лютому компанія запустила Gemma, спрямовану на допомогу розробникам і дослідникам у «відповідальному створенні штучного інтелекту» і призначену більше для скромних завдань, як-от базові чатботи або робота з підбиття підсумків.

Тим часом Anthropic у березні запустила Claude 3 — прямий виклик лідеру генеративного ШІ OpenAI.

Компанія, яку підтримують Google та Amazon, має три рівні — Haiku, Sonnet та Opus, кожен з яких пропонує дедалі більше можливостей, що відповідають потребам користувачів.

Haiku коштує $0,25 за 1 млн токенів (MTok) на вході і $1,25 на виході, тоді як Sonnet коштує $3 і $15. Opus є найдорожчим — $15 і $75.

Для порівняння, GPT-4 Turbo від OpenAI коштує $10 за вхід і $30 за вихід, а також має менше контекстне вікно у 128 тис. MTok.

Microsoft, найбільший спонсор OpenAI, стягує $20 на місяць за свій сервіс Copilot pro, який гарантує швидшу продуктивність і «все», що пропонує сервіс. Якщо ви не готові платити, є безкоштовний рівень Copilot з обмеженою функціональністю.

Днями Інститут технологічних інновацій Абу-Дабі представив другу ітерацію своєї великої мовної моделі Falcon 2, щоб конкурувати з моделями, розробленими компаніями Meta, Google та OpenAI.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Інші матеріали

Білл Гейтс нагадав про надмірне споживання електроенергії ШІ

Олеся Дерзська 28 червня 2024 16:07

Білл Гейтс нещодавно застеріг світову спільноту адептів штучного інтелекту про великі апетити ШІ у споживанні електроенергії. Про це пише Financial Times. Водночас підприємець зазначив, що інвестиції Big Tech в енергоємні системи штучного інтелекту сприяють розвитку технологій стійкої електроенергії та скороченню викидів вуглецю.

Білл Гейтс нагадав про надмірне споживання електроенергії ШІ

Керівник Anthropic помістив в офісі плакат із роботом, що знищує світ

Олеся Дерзська 26 червня 2024 16:01

Даріо Амодеі, СЕО Anthropic, помістив на одну зі стін офісу свого стартапу зображення робота, що нищить світ із написом «Deep learning is hitting a wall», повідомляє ITC. Втім, попри скептицизм СЕО, компанія позиціонує себе як вкрай відповідальна стосовно ШІ.

Керівник Anthropic помістив в офісі плакат із роботом, що знищує світ

Українські стартапери розробили застосунок, який за лічені хвилини діагностує шкіру

Оксана Томашенко 26 червня 2024 15:14

У вас траплялося таке, що після прогулянки на природі помітили укус і губитесь у здогадках: комар, змія чи отруйна рослина? Або ж з’явилася нова родимка і не знаєте, чи вона безпечна. Не завжди є можливість одразу звернутися до лікаря, а гуглити симптоми — не найкраща ідея, бо здебільшого ще й призводить до підвищення тривожності.

Українські стартапери розробили застосунок, який за лічені хвилини діагностує шкіру

OpenAI відтерміновує запуск голосового режиму

Владислав Паливода 26 червня 2024 13:24

Компанія OpenAI вирішила відкласти запуск своєї нової функції «Голосовий режим». Причиною називають технічні проблеми, пише Reuters.

OpenAI відтерміновує запуск голосового режиму

Mathema проведе онлайн-табір зі знайомства з ШІ для підлітків – як взяти участь

Олеся Дерзська 25 червня 2024 13:48

Міністерство освіти та науки України запрошує підлітків провести літо, вивчаючи штучний інтелект, адже з 1 до 26 липня 2024 року проходитиме безплатний літній ШІ-табір від Mathema для того, щоб діти змогли подружитись з ШІ. Інформація про це з’явилась на сайті МОН.

Mathema проведе онлайн-табір зі знайомства з ШІ для підлітків – як взяти участь