Головна GPT-4o

OpenAI убив Siri, що буде далі?

15 травня 2024 7 хвилин читання

«Я відчув, що став свідком убивства Siri разом із цілим поколінням голосових помічників для смартфонів від рук компанії, про яку більшість людей не чула ще два роки тому», — ділиться враженнями від презентації OpenAI Маттео Вонг, редактор The Atlantic.

GPT-4o — швидше, потужніше, дешевше

OpenAI анонсувала свій найновіший продукт — GPT-4o, швидшу, дешевшу та потужнішу версію своєї найдосконалішої великої мовної моделі, яку компанія позиціонує як наступний крок у «природній взаємодії людини із комп’ютером».

Літера «о» означає «omni» (латиною — «все»), що вказує на здатність моделі обробляти текст, мову та відео.

За словами розробників, GPT-4o удвічі швидший за GPT-4, що дає змогу миттєво відповідати на команди користувача і не витрачати час на оброблення. Також ШІ може розпізнавати емоції, щоб відповідати з правильною інтонацією, жартами або навіть сарказмом.

Зображення: OpenAI

Запущена на iPhone у нібито живій демонстрації програма змогла розповісти казку перед сном, зрозуміти, що вона «бачила» через камеру пристрою, та інтерпретувати розмову між носіями різних мов. GPT-4o здатна розпізнавати 50 мов.

Це дійсно вражає, якщо згадати нудні діалоги з попередніми роботами на кшталт Siri. Apple рекламує свого голосового помічника як можливість «робити все, навіть коли у вас зайняті руки». Але будемо відвертими, Siri — це не більше ніж великий каталог всього, що є у вашому смартфоні. Попросить її знайти відповідь на складне запитання, і вона пропонує шукати в інтернеті, спробуйте перекласти щось, вона відкриває перекладач. В епоху штучного інтелекту подібні фокуси перестають бути фокусами і викликають легке роздратування.

Нам шкода, але цей блок не підтримується в AMP версії, перейдіть за посиланням,щоб побачити повну версію.

GPT-4o — це схоже на кроманьйонця, який майже готовий до перетворення на сучасну людину — поголитися, одягнути костюм, дати в руки смартфон і можна працювати в офісі. А Siri — це вже минула еволюційна форма, що залишається у теплих спогадах.

Найбільші виробники смартфонів визнають це. Маттео Вонг пише, що Apple, яка, як відомо, запізнилася з розвитком штучного інтелекту, веде переговори з OpenAI про внесення функцій ChatGPT у майбутнє оновлення програмного забезпечення для iPhone. Також повідомляється, що компанія провела переговори з Google, щоб розглянути можливість ліцензування Gemini, флагманського продукту пошукового гіганта у галузі ШІ для iPhone. Samsung уже впровадив Gemini у свої новітні пристрої, а Google адаптував свій останній смартфон Pixel 8 Pro спеціально для роботи з Gemini. Тим часом китайські виробники смартфонів змагаються зі своїми американськими колегами у впровадженні генеративного ШІ на своїх пристроях.

Як працює GPT-4o?

Якщо пояснити коротко, то OpenAI спростив процес перетворення вхідних даних у вихідні. У попередніх моделях штучного інтелекту OpenAI голосовий режим використовувався для спілкування з ChatGPT із затримками в середньому 2,8 секунди (GPT-3.5) і 5,4 секунди (GPT-4). Голосовий режим використовував три окремі моделі: одна проста модель перетворює звук на текст, GPT-3.5 або GPT-4 приймає і виводить текст, а третя проста версія перетворює цей текст назад на звук.

«Цей процес означає, що основне джерело інтелекту, GPT-4, втрачає багато інформації — він не може безпосередньо спостерігати за тоном, кількома динаміками або фоновим шумом, а також не може виводити сміх, спів або виражати емоції», — зазначили в OpenAI.

Тестування перекладу. Зображення: OpenAI

Але з GPT-4o OpenAI зміг об'єднати всі ці функції в єдину модель з наскрізними можливостями для роботи з текстом, зображенням та аудіо, що значно скоротило кількість витраченого часу та оброблюваної інформації.

«Усі вхідні та вихідні дані обробляються однією і тією самою нейронною мережею», — кажуть в OpenAI.

До побачення, ШІ-стартапи

Презентація GPT-4o стала, ймовірно, смертельним ударом не лише для Siri, але й для хвилі стартапів у галузі ШІ, які обіцяють менш орієнтоване на телефон бачення майбутнього. Компанія Humane випускає ШІ-браслет, який кріпиться на одяг користувача і відповідає на усні запитання. Перші користувачі вже розкритикували її за глюки в роботі. Rabbit's R1 — маленька портативна коробочка, яка схожа на зламану іграшку.

Усі ці пристрої мають суттєвий недолік — вони намагаються замінити зручні та звичні смартфони у надії, що смартфони як клас набридли користувачам. Та навіть якщо це й так, чи буде хтось змінювати свій смартфон на щось незрозуміле, але із штучним інтелектом, коли той самий ШІ тепер є у смартфоні з гарною камерою та всіма іншими можливостями?

Найближчі конкуренти OpenAI

OpenAI опублікувала тестові показники GPT-4o у порівнянні з кількома іншими моделями високого класу.

GPT-4 Turbo
GPT-4 (initial release)
Claude 3 Opus
Gemini Pro 1.5
Gemini Ultra 1.0
Llama 3 400B

Зображення: datacamp.com

GPT-4o отримав найвищий бал у чотирьох тестах, хоча його випередили Claude 3 Opus у тесті MSGM та GPT-4 Turbo у тесті DROP. Ці результати вражають і свідчать про перспективність нового підходу до мультимодального навчання.

Рішення OpenAI представити нову, безкоштовну та швидшу велику мовну модель показують, наскільки сильно компанія намагається протистояти конкурентам у галузі генеративного ШІ.

У Google найбільший конкурент у цій сфері — Gemini.

Доступ до Gemini можна отримати у межах преміумплану Google One AI за $19,99 на місяць, який пропонує 2 ТБ сховища, 10-відсоткову знижку на покупки, зроблені в Google Store, і більше можливостей у Gmail, Google Docs, Google Slides та Google Meet.

У лютому компанія запустила Gemma, спрямовану на допомогу розробникам і дослідникам у «відповідальному створенні штучного інтелекту» і призначену більше для скромних завдань, як-от базові чатботи або робота з підбиття підсумків.

Тим часом Anthropic у березні запустила Claude 3 — прямий виклик лідеру генеративного ШІ OpenAI.

Компанія, яку підтримують Google та Amazon, має три рівні — Haiku, Sonnet та Opus, кожен з яких пропонує дедалі більше можливостей, що відповідають потребам користувачів.

Haiku коштує $0,25 за 1 млн токенів (MTok) на вході і $1,25 на виході, тоді як Sonnet коштує $3 і $15. Opus є найдорожчим — $15 і $75.

Для порівняння, GPT-4 Turbo від OpenAI коштує $10 за вхід і $30 за вихід, а також має менше контекстне вікно у 128 тис. MTok.

Microsoft, найбільший спонсор OpenAI, стягує $20 на місяць за свій сервіс Copilot pro, який гарантує швидшу продуктивність і «все», що пропонує сервіс. Якщо ви не готові платити, є безкоштовний рівень Copilot з обмеженою функціональністю.

Днями Інститут технологічних інновацій Абу-Дабі представив другу ітерацію своєї великої мовної моделі Falcon 2, щоб конкурувати з моделями, розробленими компаніями Meta, Google та OpenAI.

Читати на speka.media

Меню

OpenAI убив Siri, що буде далі?

GPT-4o — швидше, потужніше, дешевше

Як працює GPT-4o?

До побачення, ШІ-стартапи

Найближчі конкуренти OpenAI