Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Стартап Physical Intelligence працює над справді універсальними роботами

Олександр Тартачний
Олександр Тартачний журналіст
25 листопада 2024 9 хвилин читання

Physical Intelligence, стартап із штучного інтелекту, який оцінюють у $2 млрд, прагне створити єдиний «мозок» для різних за призначенням роботів. У компанію інвестує Джефф Безос, OpenAI та великі венчурні фонди Sequoia Capital та Тhrive Capital. Якщо стартапу вдасться, то на нас очікують дійсно універсальні машини, а не запрограмовані автомати. Speka розповідає, що відомо про стартап та наскільки близько ми до революції у робототехніці.

Чому Physical Intelligence може революціонізувати робототехніку Чому Physical Intelligence може революціонізувати робототехніку

Прошивка для будь-якого робота

Physical Intelligence хоче створити базове програмне забезпечення, яке працювало б для будь-якого робота, замість традиційного підходу створення програмного забезпечення для конкретних машин і конкретних завдань.

«Ми робимо не просто мозок для якогось конкретного робота, — сказав Кароль Хаусман, співзасновник і виконавчий директор компанії. — Це єдиний мозок широкого профілю, який може керувати будь-яким роботом».

Насправді це надзвичайно складне завдання. Існує так званий парадокс Моравека: речі, які просто зробити людям, як-от скласти кілька блоків у пірамідку чи скласти одяг, неймовірно важкі для роботів, тоді як завдання, що є складними для людей, як-от підняття важких предметів чи гра у шахи, легкі для роботів. Причина у тому, що роботи добре працюють з фізичними обмеженнями (важкі вантажі) або ж у ситуаціях, де є чіткі правила (шахи), натомість більшість речей, які ми робимо завиграшки, потребують величезного обсягу інформації для роботів. Наприклад, техніка хапання: людські руки — дуже складна конструкція і мають безліч сенсорів, що допомагає безпомильно виконувати складні операції. Натомість навіть найкращі промислові роботи використовують найпростіші захвати і часто не можуть працювати з крихким або м’яким матеріалом. 

І це лише один із викликів. Саме тому роботи або не автономні (тобто керуються людиною дистанційно), або ж пристосовані до дуже вузькоспеціалізованих завдань.  

Демонстрація робота Physical Intelligence

Чи може штучний інтелект насправді порозумнішати 

Підписуйтеся на наші соцмережі

Побудова програмного забезпечення для універсальних роботів потребуватиме величезної кількості даних про те, як діяти у реальному світі. Ці набори інформації здебільшого не існують, що змушує компанію складати власні. І мовні моделі штучного інтелекту тут можуть стати у пригоді. 

Хоча великі мовні моделі на кшталт GPT не можуть взаємодіяти з фізичним світом, вони містять багато інформації про об’єкти та їхнє застосування завдяки величезному обсягу навчальних даних. Хоча це не досконале рішення, як людина, яка розуміє світ, лише читаючи про нього, навіть цього може бути достатньо, щоб дати роботам можливість складати прості плани дій.

В експериментах Physical Intelligence використовували однорукого робота, щоб тестувати розв'язання відкритих проблем. Коли роботу сказали: «Я пролив свою кока-колу на стіл», він використовував мовну модель, щоб створити розумний план дій, який передбачав пошук та забирання банки, викидання її у смітник, а потім очищення стола губкою — усе без програмування.

Пізніше команда підключила модель комп’ютерного зору, навчену як на тексті, так і на зображеннях. В одному експерименті вони розмістили поруч фотографії різних знаменитостей, а потім попросили робота дати банку газованої води Тейлор Свіфт, при тому що зірка не фігурувала у навчальних даних робота, але модель комп’ютерного зору її розпізнала. За допомогою ШІ роботи, можливо, знатимуть та вмітимуть більше їхніх навчальних даних. 

ШІ-модель для роботів

У результаті компанія створила модель для роботів загального призначення π0, або pi-zero. У компанії це називають першим кроком до створення фізичного штучного інтелекту, здатного виконувати будь-які завдання за текстовими інструкціями, як це роблять великі мовні моделі. На відміну від LLM, pi-zero інтегрує зображення, текст та дії, навчаючись з емпіричного досвіду роботів та перетворюючи на низькорівневі моторні команди. Модель здатна керувати різними типами роботів і може бути налаштована для виконання специфічних завдань у складних сценаріях.

Використовуючи pi-zero, Physical Intelligence продемонструвала точне налаштування моделі штучного інтелекту, щоб змусити роботів складати білизну, готувати каву чи збирати коробки. У разі роботи за столом робот повинен був визначити різницю між сміттям і посудом. Йому довелося викидати сміття в урну, одночасно ставлячи посуд у лоток для транспортування. Детальніше про модель можна прочитати на сайті компанії. 

Існують також подібні базові моделі керування роботами, як-от OpenVLA, модель із відкритим вихідним кодом із 7 млрд параметрів, яку зазвичай використовують академічні дослідники для експериментів, і Octo, модель із 93 млрд параметрів. Параметри стосуються кількості внутрішніх змінних, які модель використовує для ухвалення рішень. Physical Intelligence заявила, що її pi-zero перевершив OpenVLA та Octo у більшості складних завдань.

Брак даних 

Попри відчутні успіхи, компанія заявила, що найбільшою проблемою у створенні універсальної моделі є відсутність великомасштабних багатозадачних даних. У міру того, як цей набір даних буде розширюватися, він допоможе створити моделі для більш здібних і спритних роботів.

«Ми вважаємо, що це лише невеликий ранній крок до розроблення моделей роботів справді загального призначення», — заявили у компанії. Подібно до того як LLM є основою для чатботів, моделі роботів широкого профілю забезпечують основу для фізичного інтелекту. Керівники Physical Intelligence заявили, що її програмне забезпечення ближче до GPT-1, першої моделі, опублікованої OpenAI, ніж до більш просунутих GPT-3.5 та GPT-4, на яких у різні періоди працював ChatGPT.

«Наші експерименти наразі показують, що такі моделі можуть керувати різноманітними роботами та виконувати завдання, які були безуспішними для попередніх систем навчання роботів, наприклад, складати білизну з кошика або збирати картонну коробку, — заявили у компанії. — Але політика щодо роботів широкого профілю досі перебуває у зародковому стані й попереду довгий шлях».

За словами Physical Intelligence, щоб досягти цього, знадобиться не лише набагато більше даних, а й колективні зусилля всієї робототехнічної спільноти. Компанія заявила, що співпрацює з кількома компаніями та лабораторіями робототехніки, які допоможуть удосконалити дизайн апаратного забезпечення та використовувати дані від партнерів для попередньо навчених моделей.

Хто стоїть за стартапом

У листопаді Physical Intelligence залучив $400 млн фінансування від великих інвесторів. Раунд очолювали Джефф Безос, виконавчий голова Amazon, та компанії венчурного капіталу Thrive Capital і Lux Capital. Інші інвестори — OpenAI, Redpoint Ventures та Bond.

Компанію оцінили у приблизно $2 млрд, не враховуючи нових інвестицій. 

Ідея інвестувати сотні мільйонів у компанію, яка прагне до фундаментального наукового прориву, може навіть здатися божевільною. Але OpenAI показав, наскільки великими можуть бути прибутки. До речі, OpenAI зробив внесок як у початкові інвестиції Physical Intelligence, так і в останньому раунді через свій фонд стартапів. «Обґрунтуванням для інвестування є талант, — каже джерело, знайоме з керівництвом OpenAI. — У них одні з найкращих робототехніків на планеті».

Серед співзасновників компанії Хаусман, колишній робототехнік Google; Сергій Левін, професор Каліфорнійського університету в Берклі; і Лачі Грум, інвестор і колишній керівник платіжного гіганта Stripe. 

Створення «мізків» для роботів стає довгостроковою тенденцією. Минулого року дослідники з Google  представили робота з використанням PaLM-E, моделі з 562 млн параметрів, який міг розуміти основні одиничні голосові команди. Корпорація Nvidia також анонсувала проєкт GR00T, базову модель загального призначення для двоногих гуманоїдних роботів на початку цього року.

Це не дивно: Amazon має особистий інтерес до галузі та додає більше роботів у свою діяльність, намагаючись знизити витрати та швидше доставляти замовлення клієнтам. Tesla також має великі амбіції щодо штучного інтелекту. Ілон Маск нещодавно заявив, що людиноподібний робот компанії Optimus буде у продажі вже у 2025-му. 

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

YouTube запроваджує автоматичний дубляж та захист від фейкових відео

Вікторія Рудзінська 5 годин тому

Маск запропонував купити OpenAI, Альтман відповів пропозицією купити X

Кіра Іванова 9 годин тому

Американська компанія купила українського розробника ШІ-чатботів BotsCrew: що відомо

Владислав Паливода 13 годин тому

OpenAI планує завершити розробку свого першого чипа ШІ: деталі

Владислав Паливода 14 годин тому

Roblox, Discord, OpenAI та Google об’єднуються для боротьби з онлайн-загрозами

Вікторія Рудзінська 18 годин тому