Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: Альтман у Фрідмана, Devin замість розробників, ШІ-агенти грають в ігри

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
26 березня 2024 19 хвилин читання

За останній час ШІ-хайптрейн розігнався настільки, що встигати за ним дуже важко. Навіть співзасновник та CTO Reface Олесь Петрів нещодавно зізнався у нашому подкасті, що не встигає стежити за індустрією штучного інтелекту, що вже казати про звичайних користувачів.

Тому ми вирішили допомогти вам і що два тижні збираємо найважливіші новини та найцікавіші історії зі світу ШІ у нашому дайджесті. Найгучніші з них коментуватимуть представники українського ШІ-ком’юніті. Сьогодні розібратись у бурливому світі штучного інтелекту нам допоможе Ілля Лубенець, CTO у SpicyAI.

Швидке інтро: ми — це AI HOUSE, найбільше та найпотужніше ШІ-комʼюніті в Україні, та Roosh, інвестиційна група нового типу, що розвиває та масштабує технологічні бізнеси у всьому світі.

Не любимо довгих смолтолків (насправді іноді любимо), тому поїхали!

Зустрічайте, Devin, перший ШІ-розробник

Компанія Cognition AI представила Devin, автономного ШІ-агента, що може самостійно писати програмні проєкти з нуля на основі текстових підказок. Він може планувати та виконувати складні завдання, писати код, ходити в інтернет, навчатися, збирати інформацію, фіксити баги тощо. Причому під час виконання завдання бот буде описувати та показувати, що саме він робить: за потреби людина може давати правки, і Devin все пофіксить.   

Devin Devin

Devin значно попереду за інші ШІ-інструменти для розробників. Він вирішує 13,86% проблем за бенчмарком SWE-bench, який оцінює ефективність LLM у розв’язанні реальних задач з програмування. Найкращий попередній показник у 4,8% набрав Claude 2, якому попередньо надавали додаткові файли, що допомагали йому виконувати завдання. Натомість Devin справлявся самостійно. Ба більше, у Cognition  показали, як ШІ-агент за лічені хвилини виконує роботу на Upwork. 

Команда пообіцяла згодом опублікувати технічні деталі Devin. Проте головне питання, яке виникає вже зараз: а чи готові ми до такого майбутнього? 

Ілля Лубенець
Ілля Лубенець
CTO в SpicyAI

Демо виглядає круто, але є декілька питань:

- Незрозуміло, як швидко він працює. Я знайшов декілька лайвдемо, але там були дуже прості завдання, і навіть вони займали значний час.

- Ціна. Незрозуміло, скільки це все задоволення буде коштувати. Схоже на дуже дороге демо (як це було з SORA), яке не має фінансового обґрунтування. І це не означає, що цього робити не треба, просто знайте, що роботу воно у вас не відбере.

- Як він розв’язує складніші завдання, чи взагалі вирішує хоча б частину?

До речі, якщо ви, як і я, ще не отримали доступу до Devin, то є Amazon Code Catalyst і в його платному тарифі є фічі ШІ-асистента; він значно гірший, ніж відео з Devin, але ви можете вже зараз спробувати його на своєму проєкті. 100%, що Copilot майбутнього буде саме таким. 

Якщо відійти від завдань розроблення, то розв'язання завдань планування — це дуже важливий крок для побудови AGI, який всі або хочуть, або бояться отримати.

Apple і ШІ: як завершиться ця драма? 

Загальноприйнятою є думка, що Apple безнадійно відстає від OpenAI, Microsoft, Google та інших конкурентів у розробці та імплементації AI у свої продукти. Цього року, здається, це зміниться, але не так, як думала більшість. 

Тім Кук Тім Кук

По-перше, Apple і Google ведуть переговори щодо імплементації Gemini в iPhone. А ще раніше подібні перемовини тривали і з OpenAI. Схоже, це означає, що розробка власної LLM Ajax, на базі якої мав би працювати умовний Apple GPT, не була надто успішною: у компанії начебто визнають, що Gemini та інші інструменти працюють краще. 

По-друге, дослідники Apple опублікували пейпер, у якому демонструють новий підхід до створення більш інтелектуальних і гнучких систем штучного інтелекту та розповідають про MM1 — сімейство мультимодальних ШІ-моделей, які можуть обробляти та генерувати текст, зображення та інші типи даних. За своїми показниками найбільша MM1 на 30 млрд параметрів конкурує з найсучаснішими мультимодальними моделями, як-от GPT-4V та Gemini Pro.

У роботі детально описуються архітектури моделей та типи даних, з якими експериментували дослідники. Це дуже нетиповий підхід для Apple, яка зазвичай не любить ділитися своїми напрацюваннями. Та й інші ШІ-лабораторії на кшталт OpenAI та Google не надто активно діляться своїми дослідженнями, і навіть у пейперах часто не розкривають усієї інформації (так, ми говоримо про вас, пані Мураті)

Існують припущення, що компанія стає відкритішою (принаймні щодо напрацювань у сфері ШІ) не просто так, а для залучення найкращих ШІ-дослідників, яким зручніше працювати у відкритих середовищах, де заведено ділитись експертизою. Протилежний підхід, який практикують в OpenAI та Google, і за яким в Apple, схоже, вирішили не йти, — мільйонні зарплати та виплати для талантів. 

По-третє, Apple купила ще один ШІ-стартап — DarwinAI, залучивши десятки співробітників компанії до свого ШІ-підрозділу. Підготовка до «революційного» оновлення iOS 18 йде повним ходом, адже саме Apple скуповує найбільшу кількість ШІ-компаній від 2017 року. Чекаємо на крутий апдейт Siri? 

Ілля Лубенець
Ілля Лубенець
CTO в SpicyAI

Так чи інакше Apple збирає дуже сильну команду, яка буде працювати над штучним інтелектом для своїх операційних систем. Крім згаданих покупок і переговорів, вони наймають у команду сильних NLP-інженерів, а також перевели у цей напрям понад 1000 людей, які до цього займалися селф-драйвінгом.
Насправді тільки Google та Apple мають можливість зробити повноцінного ШІ-асистента, бо мають необхідну для цього інфраструктуру та екосистему. Але якщо в Google я вже особисто не вірю, то в Apple є всі шанси.
Нагадаю, що в iOS вже є Shortcuts які дають «доступ» Siri до даних з ваших застосунків, тому питання лише за нормальною LLM, яка буде працювати на девайсі.   

ШІ-агент — ваш майбутній тімейт

Google DeepMind представила SIMA <Scalable Instructable Multiworld Agent> — ШІ-агента, що може дотримуватися текстових підказок для виконання завдань у різних ігрових світах. 

ШІ-тіммейт ШІ-тіммейт

DeepMind навчав свою модель, зібравши дані про те, як люди грали у десятки різних ігор на кшталт Valheim, No Man’s Sky, Goat Simulator. Вибір ігор не випадковий: дослідники фокусувалися на тих, де важливим є саме геймплей, а не сюжетна складова. Це дозволило ШІ розуміти та виконувати команди не тільки у цих іграх, а й адаптуватися до нових ігор, яких не було у її початковому наборі даних. На момент публікації SIMA навчився майже 600 навичок: повороти персонажа, пересування сходами, використання інструментів і мапи тощо. Проте складніші завдання по типу «знайди ресурси та побудуй табір» досі викликають труднощі. 

За останній час дослідники випустили чимало подібних ШІ-агентів і фреймворків. Наприклад, KnowAgent розширює можливості планування LLM, додаючи до набору даних детальну інформацію про потенційні дії та результати, що дозволяє зменшити  галюцинації під час планування та покращити виконання завдань. Також є Cradle, який не просто навчився виконувати певні дії у Red Dead Redemption 2, але йти за сюжетними лініями гри, виконуючи місії. 

Ілля Лубенець
Ілля Лубенець
CTO в SpicyAI

Наступне завдання, яке потрібно вирішити людству для наступного ривка у сфері ШІ, — це вміння розуміти фізичний світ. І хоча не надто очевидно що, наприклад, SORA — це теж проєкт у цьому напрямі, то є пачка проєктів, які більш цілеспрямовано рухаються у цей бік. 

Насправді історія, як з self-dring. Їх варто було б випустити у фізичний світ отримувати досвід, але страшно, тому поки що це все відбувається у різних віртуальних середовищах. Але я думаю, що через декілька років можна буде побачити на вулиці Сан-Франциско (хоча радше в офісах) роботів типу Figure AI, які будуть тестуватися, як self-dring автомобілі.

Що ще нового у світі ШІ

📝У ЄС схвалили перший у світі повноцінний закон про регулювання ШІ, а також створили The European AI Office, який відповідатиме за безпеку, політику і розвиток технології. Щодо закону, то його головна ідея — регулювання ШІ на основі того, якої шкоди він може завдати суспільству: що вищі ризики, то жорсткіше регулювання. 

🚨У ЗМІ активно поширюється інформація про те, що OpenAI планує випустити GPT-5 цього року. Кажуть, що вона працює набагато краще за четверту версію і навіть відкриє доступ до ШІ-агентів для автономного виконання завдань. Тим часом минулого тижня OpenAI самі заспойлерили GPT 4.5 Turbo у своєму блозі, який оперативно видалили. Проте пошуковики проіндексували прев’ю анонсу, де було вказано, що GPT-4.5 Turbo «перевершує GPT-4 Turbo за швидкістю, точністю та масштабованістю», має контекстне вікно у 256K і обмеження знань до червня 2024 року. 

👥Також OpenAI оновила свій борд, відновивши у ньому Сема Альтмана. Новими членами стали: Сью Десмонд-Хелльман, ex-CEO Фонду Білла і Мелінди Гейтс; Ніколь Селігман, колишня президентка Sony Entertainment; і Фіджі Сімо, CEO Instacart, раніше відповідала за розроблення застосунку Facebook.  

💡Google відкрив доступ до Gemini 1.5 Pro з контекстним вікном у мільйон токенів. Якщо ви в Україні, вмикайте VPN і заходьте тестувати сюди

🖥Nvidia анонсувала нові ШІ-чипи Blackwell B200. На графічному процесорі розміщено 208 млрд транзисторів. Чип вважається «найпотужнішим у світі»: він дає х30 у продуктивності та споживає у 25 разів менше енергії, ніж його попередник H100 GPU. У Nvidia обіцяють, що чипи дозволять тренувати моделі з трильйонними параметрами.

🤖Також компанія представила Project GR00T, мультимодальну ШІ-систему, яка буде мозком для роботів, що дозволить їм розуміти мову, імітувати людські рухи, навчатися та взаємодіяти зі світом. Серед партнерів Nvidia — Figure, Apptronik, Agility Robotics, Sanctuary AI та Unitree. До речі, про Figure: компанія показала Figure 01, робота, якого розробляли у співпраці з OpenAI. Робот може вести бесіди, розробляти плани, виконувати дії та розуміти оточення, у якому він перебуває. 

🧑‍💻Тепер ви можете створювати сайти за допомогою тексту в новому ШІ-конструкторі Wix. Принцип створення сайту у Wix схожий на розробку власного GPT: конструктор дає вам кілька питань <назва сайту, про що він буде, які цілі створення> → отримуєте драфт → редагуєте, що хочете. Ідеальний результат за кілька хвилин ви навряд чи отримаєте, але спробувати точно варто. 

🔊Pika Labs додала можливість створювати звукові ефекти з промптів, що дозволяє користувачам додавати до своїх відео реалістичні звуки. Зараз функція доступна лише підписникам версій Pro і вище, але найближчими тижнями скористатися нею зможуть усі. 

🔐У Midjourney забанили акаунти всіх співробітників Stability AI, звинувативши конкурентів у крадіжці їхніх зображень, через що сервіс був недоступний майже 24 години. CEO Stability AI Емад Мостак сказав, що не давав подібних вказівок і пообіцяв допомогти MJ у розслідуванні. Невідомо, чи пов’язано це зі справою, але днями Stability AI покинули Робін Ромбах та його група дослідників, які допомогли розробити Stable Diffusion. 

👨‍🎨Midjourney стає дедалі кращим. Нова функція дозволяє відтворювати персонажів, копіюючи їхні риси обличчя та інші характеристики. Лайфхак: наразі функція краще працює з тими картинками, що були згенеровані саме у Midjourney. 

🔙В Індії задумались над тим, щоб вимагати від компаній, які хочуть працювати на ринку країни, дозволів на запуск своїх ШІ-моделей. Проте менш ніж за два тижні через критику від інвесторів і підприємців від ідеї відмовились. Д — демократія.

📱Тепер Reels будуть ще більш релевантними: Meta розробляє ШІ-систему, що підтримуватиме роботу всього механізму рекомендацій. Компанія хоче створити ще кращу систему й інвестувала заради цього мільярди доларів. Інвестиції виправдовують себе: завдяки імплементації цієї системи час перегляду Reels збільшився на 8-10% у застосунку Facebook. 

🕸Inflection AI випустила ШІ-модель Inflection-2.5, на базі якої працює чатбот Pi. За якістю роботи вона вийшла майже на рівень GPT-4, але компанія використала значно менше обчислювальних ресурсів для її навчання. Чатбот також навчився гуляти інтернетом, а компанія планує монетизувати його, додавши опцію платної підписки. А днями кофаундерів Inflection і більшу частину команди стартапу схантив Microsoft, заплативши компанії $650 млн.

📹Два колишні співробітники DeepMind Ішу Мяо та Цзюй Ван випустили генератор відео Haiper, який працює на базі власної ШІ-моделі. Користувачі зможуть створювати короткі відео за допомогою текстових підказок, змінювати їхній стиль і анімувати зображення. Компанія на seed-раунді залучила $13,8 млн — стежимо. 

Цікаве з мережі

Сем Альтман завітав на подкаст до Лекса Фрідмана. Виступаємо вашим ChatGPT і розказуємо найцікавіше з їхньої бесіди. 

Сага з бордом

Сем назвав цей момент «найболючішим професійним досвідом у своєму житті». Спочатку він погодився на звільнення і вже навіть роздумував про подальшу роботу, але згодом його переконали боротися за OpenAI. Наступні чотири дні після оголошення він майже не спав і не їв.

Сем Альтман Сем Альтман

Тепер до вибору членів борду будуть підходити більш вдумливо: там має бути мікс технічної експертизи та людей, які знаються на впливі технологій на суспільство. Але загалом Альтман радий, що подібна ситуація сталася відносно рано, адже він був упевнений, що на шляху до AGI всередині OpenAI точно має статися щось «божевільне». 

Суд із Маском

Альтман не знає справжніх мотивів колишнього партнера, навіщо той пішов до суду. В якийсь момент Маск хотів, щоб OpenAI стала частиною Tesla, зробити її комерційною (іронічно, що саме через це Маск начебто судиться з OpenAI) та отримати повний контроль над компанією. В OpenAI відмовились, через що Маск покинув компанію, він не вірив у її успіх і був впевнений, що лише самостійно зможе розрулити ситуацію. 

Пояснюючи перехід від non-profit, Альтман заявив, що якби в OpenAI заздалегідь знали те, що вони знають тепер, то вони б одразу розпочали свою діяльність,як комерційна компанія <адже дослідження потребують великих грошей>. Сам позов Маска Сем не розглядає як щось серйозне з юридичного погляду, це радше політичний хід. На критику, що OpenAI не оупенсорсить свої продукти, він відповів, що і Grok ніхто не відкривав, поки користувачі не почали говорити про лицемірність подібних звинувачень з боку Маска. 

Sora

Sora відображає нове для AI-моделей розуміння світу. Для навчання використовувались синтетичні дані, але над маркуванням даних працювали люди. Попри круте демо, Sora зараз має багато обмежень, які дозволить подолати подальше активне масштабування та тренування на нових даних. Sora вже непогано розуміє фізику <хоч і не без фейлів> — з часом модель ставатиме лише кращою. Водночас випускати Sora у паблік будуть обережно через велику кількість можливих ризиків.

GPT 4

Альтман називає GPT-4 важливою, але проміжною віхою в еволюції OpenAI, підкреслюючи її роль, як сходинки до більш досконалих AI-моделей. GPT-4 дійсно вийшла проривною, у неї є свої «магічні моменти». Але також є багато недоліків, особливо в глибокому розумінні задач і багатокрокових міркуваннях, що мотивує компанію розробляти майбутні моделі. За його словами, GPT-5 буде такою, що на її фоні GPT-4 буде «жахливою», так само як можна подумати зараз про GPT-3.

Інтерфейс ChatGPT — революція, яка показала користувачам, що взаємодія з AI може бути зручною і практичною. Розширення контекстного вікна — дуже важливе для майбутніх ітерацій моделі, адже це дозволить людям використовувати ШІ по-новому. В майбутньому воно може стати настільки великим, що туди можна буде вмістити всю історію і контекст, що стосується певної людини — це дозволить максимально персоналізувати взаємодію. Наприклад, модель зможе аналізувати досвід людини та давати їй персоналізовані поради, допомагаючи зростати як особистості. 

GPT-5

OpenAI планує випустити «дивовижну нову модель» цього року, проте не факт, що вона називатиметься GPT-5. Імовірно, спочатку буде певна кількість «середніх» апдейтів, які важливо випустити перед релізом GPT-5. Імовірно, вони досягнуть або навіть перевищать можливості, які люди очікують від наступного покоління моделі. Немає якогось одного чинника, який би дозволив зробити експоненціальний стрибок, радше це комбінація різних елементів, як-от збільшення обчислювальної потужності, нові технічні підходи тощо. 

Альтман очікує, що перехід від GPT-4 до GPT-5 значно покращить ефективність ChatGPT у багатьох сферах. Особливо він хоче, щоб ШІ навчився краще розуміти користувачів і їхні запити, це має бути схоже на певний емпатичний та інтелектуальний зв’язок між людьми. 

Значні зміни чекають на програмування: деякі спеціалісти зможуть повністю покладатися на природну мову для розробки. Водночас найкращі програмісти будуть комбінувати природну мову і традиційне кодування, коли це необхідно, хоча зараз важко точно сказати, у яких пропорціях це відбуватиметься. 

В якийсь момент варто очікувати на появу роботів або «робомозку» від OpenAI (привіт, Figure AI?). Штучний інтелект потребує прямої взаємодії з фізичним середовищем заради еволюції: було б «депресивно» мати AGI, обмежений лише віртуальною сферою без здатності напряму взаємодіяти та впливати на реальний світ. 

Пам’ять і конфіденційність

Етична проблема полягає в тому, щоб збалансувати користь від отримання персональних даних користувачів з проблемами конфіденційності. Практична проблема полягає в розробці надійних модельних архітектур та інфраструктури для безпечного управління такими персоналізованими AI-асистентами. Тут Сем acts as ідеальний політик і каже про важливість прозорості та контролю за даними користувачів: у людей має бути можливість редагувати або видаляти дані про себе, які AI «запам’ятав» про них. 

Q*

Цей проєкт дійсно існує. Що це таке, Альтман так і не розповів, але натякнув, що він стосується вдосконалення можливостей міркування в AI-системах. Важливо підходити до релізів обережно. Еволюція штучного інтелекту — безперервна рівномірна подорож, а не монументальні стрибки, як це виглядає ззовні. Саме тому OpenAI підходить до своїх апдейтів ітеративно, що дозволяє суспільству поступово адаптуватися до прогресу технології. 

Про майбутнє ШІ 

Ні, Альтман не шукає $7 трлн інвестицій для розбудови власних фабрик з виробництва чипів, як про це багато говорили у медіа. Водночас він упевнений, що у майбутньому обчислювальні ресурси стануть найціннішим товаром, подібним до енергії. Масштабувати обчислювальні ресурси для задоволення глобального попиту буде дуже важко через енергетичні проблеми, обмежену кількість чипів, розтягнуті ланцюги постачання та складну інфраструктуру центрів оброблення даних. 

Геймченджером має стати ядерна енергетика, оскільки з часом і розвитком технологій енергетичні потреби людства лише зростатимуть. Сем розчарований через занепад розвитку ядерного поділу через громадський страх і сподівається, що у майбутньому сфера відродиться. 

Конкуренція всередині ШІ-індустрії — це добре, тому що це стимулює інновації, продукти розвиваються швидше; погано — бо це розпалює «гонку озброєнь», яка може поставити під загрозу безпеку людства. 

Про Google, рекламу і безпеку

OpenAI напряму не конкурує з пошуковиком Google. Компанія хоче кардинально змінити підхід до того, як люди взаємодіють з інформацією — замість того, щоб надавати ранжовані посилання, AI-система має самостійно аналізувати інформацію і безпосередньо відповідати на питання користувача. Водночас неможливо просто поєднати умовний ChatGPT з функціями пошуку, оскільки важливо, щоб ця система була зручною для користувачів <хм, але у Perplexity наче це вдається? — Прим.>. 

ШІ-пошуковики, які монетизуються рекламою, — це поганий підхід, оскільки у такий спосіб відповіді системи будуть спотворені інтересами рекламодавців. Бізнес-модель OpenAI стійка, оскільки користувачі платять за додаткові послуги, на які ніяк не впливають треті сторони. Водночас компанія думає над новими стратегіями зростання. 

AGI

ChatGPT 3.5 дійсно змусив людей задуматись про реалістичність досягнення AGI. Зараз немає сенсу говорити про часові рамки, оскільки у нас немає усталеного визначення цього терміна — саме це питання має бути основним фокусом зараз. Водночас він упевнений, що ШІ-системи, які ми матимемо до кінця десятиріччя, будуть «дивовижними» у порівнянні з сучасними моделями. 

AGI матиме значний глобальний економічний вплив. Система, що значно прискорить наукові відкриття, точно змінить світ на краще. Водночас жодна особа чи компанія не повинні мати повного контролю над AGI-системою. Тому дуже важливо встановити правила гри, у цьому мають взяти участь уряди держав <Альтман навіть готовий захищати цю позицію від нападок AI-accelerationists, про яких ми розповідали тут>, регулюючи відповідальний розвиток технології. 

Втрата людського контролю над AGI зараз не є пріоритетною проблемою для Альтмана, хоча він визнає, що над цим питанням потрібно працювати. Він вважає, що надто велика увага до цього «театрального» ризику затьмарила інші значні ризики ШІ.

Мем — традиційне завершення нашого ШІ-дайджесту Мем — традиційне завершення нашого ШІ-дайджесту
Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

Apple планує інтегрувати Google Gemini в свої пристрої

Вікторія Рудзінська 8 годин тому

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 9 годин тому

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 10 годин тому

Вчені знайшли новий спосіб закріплення живої шкіри на роботах

Вікторія Рудзінська 28 червня 2024 07:44

Частка венчурних інвестицій в ШІ у Європі сягнула 18%

Олеся Дерзська 27 червня 2024 20:19