OpenAI убив Siri, що буде далі?
GPT-4o — швидше, потужніше, дешевше
Літера «о» означає «omni» (латиною — «все»), що вказує на здатність моделі обробляти текст, мову та відео.
За словами розробників, GPT-4o удвічі швидший за GPT-4, що дає змогу миттєво відповідати на команди користувача і не витрачати час на оброблення. Також ШІ може розпізнавати емоції, щоб відповідати з правильною інтонацією, жартами або навіть сарказмом.
Запущена на iPhone у нібито живій демонстрації програма змогла розповісти казку перед сном, зрозуміти, що вона «бачила» через камеру пристрою, та інтерпретувати розмову між носіями різних мов. GPT-4o здатна розпізнавати 50 мов.
Це дійсно вражає, якщо згадати нудні діалоги з попередніми роботами на кшталт Siri. Apple рекламує свого голосового помічника як можливість «робити все, навіть коли у вас зайняті руки». Але будемо відвертими, Siri — це не більше ніж великий каталог всього, що є у вашому смартфоні. Попросить її знайти відповідь на складне запитання, і вона пропонує шукати в інтернеті, спробуйте перекласти щось, вона відкриває перекладач. В епоху штучного інтелекту подібні фокуси перестають бути фокусами і викликають легке роздратування.
GPT-4o — це схоже на кроманьйонця, який майже готовий до перетворення на сучасну людину — поголитися, одягнути костюм, дати в руки смартфон і можна працювати в офісі. А Siri — це вже минула еволюційна форма, що залишається у теплих спогадах.
Найбільші виробники смартфонів визнають це. Маттео Вонг пише, що Apple, яка, як відомо, запізнилася з розвитком штучного інтелекту, веде переговори з OpenAI про внесення функцій ChatGPT у майбутнє оновлення програмного забезпечення для iPhone. Також повідомляється, що компанія провела переговори з Google, щоб розглянути можливість ліцензування Gemini, флагманського продукту пошукового гіганта у галузі ШІ для iPhone. Samsung уже впровадив Gemini у свої новітні пристрої, а Google адаптував свій останній смартфон Pixel 8 Pro спеціально для роботи з Gemini. Тим часом китайські виробники смартфонів змагаються зі своїми американськими колегами у впровадженні генеративного ШІ на своїх пристроях.
Підписуйтеся на наші соцмережі
Як працює GPT-4o?
Якщо пояснити коротко, то OpenAI спростив процес перетворення вхідних даних у вихідні. У попередніх моделях штучного інтелекту OpenAI голосовий режим використовувався для спілкування з ChatGPT із затримками в середньому 2,8 секунди (GPT-3.5) і 5,4 секунди (GPT-4). Голосовий режим використовував три окремі моделі: одна проста модель перетворює звук на текст, GPT-3.5 або GPT-4 приймає і виводить текст, а третя проста версія перетворює цей текст назад на звук.
«Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації — він не може безпосередньо спостерігати за тоном, кількома динаміками або фоновим шумом, а також не може виводити сміх, спів або виражати емоції», — зазначили в OpenAI.
Але з GPT-4o OpenAI зміг об'єднати всі ці функції в єдину модель з наскрізними можливостями для роботи з текстом, зображенням та аудіо, що значно скоротило кількість витраченого часу та оброблюваної інформації.
«Усі вхідні та вихідні дані обробляються однією і тією самою нейронною мережею», — кажуть в OpenAI.
До побачення, ШІ-стартапи
Презентація GPT-4o стала, ймовірно, смертельним ударом не лише для Siri, але й для хвилі стартапів у галузі ШІ, які обіцяють менш орієнтоване на телефон бачення майбутнього. Компанія Humane випускає ШІ-браслет, який кріпиться на одяг користувача і відповідає на усні запитання. Перші користувачі вже розкритикували її за глюки в роботі. Rabbit's R1 — маленька портативна коробочка, яка схожа на зламану іграшку.
Усі ці пристрої мають суттєвий недолік — вони намагаються замінити зручні та звичні смартфони у надії, що смартфони як клас набридли користувачам. Та навіть якщо це й так, чи буде хтось змінювати свій смартфон на щось незрозуміле, але із штучним інтелектом, коли той самий ШІ тепер є у смартфоні з гарною камерою та всіма іншими можливостями?
Найближчі конкуренти OpenAI
OpenAI опублікувала тестові показники GPT-4o у порівнянні з кількома іншими моделями високого класу.
- GPT-4 Turbo
- GPT-4 (initial release)
- Claude 3 Opus
- Gemini Pro 1.5
- Gemini Ultra 1.0
- Llama 3 400B
GPT-4o отримав найвищий бал у чотирьох тестах, хоча його випередили Claude 3 Opus у тесті MSGM та GPT-4 Turbo у тесті DROP. Ці результати вражають і свідчать про перспективність нового підходу до мультимодального навчання.
Рішення OpenAI представити нову, безкоштовну та швидшу велику мовну модель показують, наскільки сильно компанія намагається протистояти конкурентам у галузі генеративного ШІ.
У Google найбільший конкурент у цій сфері — Gemini.
Доступ до Gemini можна отримати у межах преміумплану Google One AI за $19,99 на місяць, який пропонує 2 ТБ сховища, 10-відсоткову знижку на покупки, зроблені в Google Store, і більше можливостей у Gmail, Google Docs, Google Slides та Google Meet.
У лютому компанія запустила Gemma, спрямовану на допомогу розробникам і дослідникам у «відповідальному створенні штучного інтелекту» і призначену більше для скромних завдань, як-от базові чатботи або робота з підбиття підсумків.
Тим часом Anthropic у березні запустила Claude 3 — прямий виклик лідеру генеративного ШІ OpenAI.
Компанія, яку підтримують Google та Amazon, має три рівні — Haiku, Sonnet та Opus, кожен з яких пропонує дедалі більше можливостей, що відповідають потребам користувачів.
Haiku коштує $0,25 за 1 млн токенів (MTok) на вході і $1,25 на виході, тоді як Sonnet коштує $3 і $15. Opus є найдорожчим — $15 і $75.
Для порівняння, GPT-4 Turbo від OpenAI коштує $10 за вхід і $30 за вихід, а також має менше контекстне вікно у 128 тис. MTok.
Microsoft, найбільший спонсор OpenAI, стягує $20 на місяць за свій сервіс Copilot pro, який гарантує швидшу продуктивність і «все», що пропонує сервіс. Якщо ви не готові платити, є безкоштовний рівень Copilot з обмеженою функціональністю.
Днями Інститут технологічних інновацій Абу-Дабі представив другу ітерацію своєї великої мовної моделі Falcon 2, щоб конкурувати з моделями, розробленими компаніями Meta, Google та OpenAI.