OpenAI убив Siri, що буде далі?
«Я відчув, що став свідком убивства Siri разом із цілим поколінням голосових помічників для смартфонів від рук компанії, про яку більшість людей не чула ще два роки тому», — ділиться враженнями від презентації OpenAI Маттео Вонг, редактор The Atlantic.
GPT-4o — швидше, потужніше, дешевше
OpenAI анонсувала свій найновіший продукт — GPT-4o, швидшу, дешевшу та потужнішу версію своєї найдосконалішої великої мовної моделі, яку компанія позиціонує як наступний крок у «природній взаємодії людини із комп’ютером».
Літера «о» означає «omni» (латиною — «все»), що вказує на здатність моделі обробляти текст, мову та відео.
За словами розробників, GPT-4o удвічі швидший за GPT-4, що дає змогу миттєво відповідати на команди користувача і не витрачати час на оброблення. Також ШІ може розпізнавати емоції, щоб відповідати з правильною інтонацією, жартами або навіть сарказмом.
Запущена на iPhone у нібито живій демонстрації програма змогла розповісти казку перед сном, зрозуміти, що вона «бачила» через камеру пристрою, та інтерпретувати розмову між носіями різних мов. GPT-4o здатна розпізнавати 50 мов.
Це дійсно вражає, якщо згадати нудні діалоги з попередніми роботами на кшталт Siri. Apple рекламує свого голосового помічника як можливість «робити все, навіть коли у вас зайняті руки». Але будемо відвертими, Siri — це не більше ніж великий каталог всього, що є у вашому смартфоні. Попросить її знайти відповідь на складне запитання, і вона пропонує шукати в інтернеті, спробуйте перекласти щось, вона відкриває перекладач. В епоху штучного інтелекту подібні фокуси перестають бути фокусами і викликають легке роздратування.
GPT-4o — це схоже на кроманьйонця, який майже готовий до перетворення на сучасну людину — поголитися, одягнути костюм, дати в руки смартфон і можна працювати в офісі. А Siri — це вже минула еволюційна форма, що залишається у теплих спогадах.
Найбільші виробники смартфонів визнають це. Маттео Вонг пише, що Apple, яка, як відомо, запізнилася з розвитком штучного інтелекту, веде переговори з OpenAI про внесення функцій ChatGPT у майбутнє оновлення програмного забезпечення для iPhone. Також повідомляється, що компанія провела переговори з Google, щоб розглянути можливість ліцензування Gemini, флагманського продукту пошукового гіганта у галузі ШІ для iPhone. Samsung уже впровадив Gemini у свої новітні пристрої, а Google адаптував свій останній смартфон Pixel 8 Pro спеціально для роботи з Gemini. Тим часом китайські виробники смартфонів змагаються зі своїми американськими колегами у впровадженні генеративного ШІ на своїх пристроях.
Як працює GPT-4o?
Якщо пояснити коротко, то OpenAI спростив процес перетворення вхідних даних у вихідні. У попередніх моделях штучного інтелекту OpenAI голосовий режим використовувався для спілкування з ChatGPT із затримками в середньому 2,8 секунди (GPT-3.5) і 5,4 секунди (GPT-4). Голосовий режим використовував три окремі моделі: одна проста модель перетворює звук на текст, GPT-3.5 або GPT-4 приймає і виводить текст, а третя проста версія перетворює цей текст назад на звук.
«Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації — він не може безпосередньо спостерігати за тоном, кількома динаміками або фоновим шумом, а також не може виводити сміх, спів або виражати емоції», — зазначили в OpenAI.
Але з GPT-4o OpenAI зміг об'єднати всі ці функції в єдину модель з наскрізними можливостями для роботи з текстом, зображенням та аудіо, що значно скоротило кількість витраченого часу та оброблюваної інформації.
«Усі вхідні та вихідні дані обробляються однією і тією самою нейронною мережею», — кажуть в OpenAI.
До побачення, ШІ-стартапи
Презентація GPT-4o стала, ймовірно, смертельним ударом не лише для Siri, але й для хвилі стартапів у галузі ШІ, які обіцяють менш орієнтоване на телефон бачення майбутнього. Компанія Humane випускає ШІ-браслет, який кріпиться на одяг користувача і відповідає на усні запитання. Перші користувачі вже розкритикували її за глюки в роботі. Rabbit's R1 — маленька портативна коробочка, яка схожа на зламану іграшку.
Усі ці пристрої мають суттєвий недолік — вони намагаються замінити зручні та звичні смартфони у надії, що смартфони як клас набридли користувачам. Та навіть якщо це й так, чи буде хтось змінювати свій смартфон на щось незрозуміле, але із штучним інтелектом, коли той самий ШІ тепер є у смартфоні з гарною камерою та всіма іншими можливостями?
Найближчі конкуренти OpenAI
OpenAI опублікувала тестові показники GPT-4o у порівнянні з кількома іншими моделями високого класу.
- GPT-4 Turbo
- GPT-4 (initial release)
- Claude 3 Opus
- Gemini Pro 1.5
- Gemini Ultra 1.0
- Llama 3 400B
GPT-4o отримав найвищий бал у чотирьох тестах, хоча його випередили Claude 3 Opus у тесті MSGM та GPT-4 Turbo у тесті DROP. Ці результати вражають і свідчать про перспективність нового підходу до мультимодального навчання.
Рішення OpenAI представити нову, безкоштовну та швидшу велику мовну модель показують, наскільки сильно компанія намагається протистояти конкурентам у галузі генеративного ШІ.
У Google найбільший конкурент у цій сфері — Gemini.
Доступ до Gemini можна отримати у межах преміумплану Google One AI за $19,99 на місяць, який пропонує 2 ТБ сховища, 10-відсоткову знижку на покупки, зроблені в Google Store, і більше можливостей у Gmail, Google Docs, Google Slides та Google Meet.
У лютому компанія запустила Gemma, спрямовану на допомогу розробникам і дослідникам у «відповідальному створенні штучного інтелекту» і призначену більше для скромних завдань, як-от базові чатботи або робота з підбиття підсумків.
Тим часом Anthropic у березні запустила Claude 3 — прямий виклик лідеру генеративного ШІ OpenAI.
Компанія, яку підтримують Google та Amazon, має три рівні — Haiku, Sonnet та Opus, кожен з яких пропонує дедалі більше можливостей, що відповідають потребам користувачів.
Haiku коштує $0,25 за 1 млн токенів (MTok) на вході і $1,25 на виході, тоді як Sonnet коштує $3 і $15. Opus є найдорожчим — $15 і $75.
Для порівняння, GPT-4 Turbo від OpenAI коштує $10 за вхід і $30 за вихід, а також має менше контекстне вікно у 128 тис. MTok.
Microsoft, найбільший спонсор OpenAI, стягує $20 на місяць за свій сервіс Copilot pro, який гарантує швидшу продуктивність і «все», що пропонує сервіс. Якщо ви не готові платити, є безкоштовний рівень Copilot з обмеженою функціональністю.
Днями Інститут технологічних інновацій Абу-Дабі представив другу ітерацію своєї великої мовної моделі Falcon 2, щоб конкурувати з моделями, розробленими компаніями Meta, Google та OpenAI.