Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: роботи-футболісти, партнерство OpenAI з Adobe та багато нових релізів

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
19 квітня 2024 22 хвилин читання

Що два тижні інвестиційна група Roosh разом із найбільшим та найпотужнішим ШІ-ком'юніті в Україні AI HOUSE збирають найцікавіші новини та історії зі світу ШІ у дайджесті «AI несеться». Уже за десять хвилин ви будете в курсі найважливішого, що відбувалося в індустрії за останній час. Сьогодні розібратись у бурливому світі штучного інтелекту нам допоможе Владислав Безсмертний, ШІ-консультант.

Adobe партнериться з OpenAI, Runway та Pika?

Adobe показала демо оновленого відеоредактора Premiere Pro. Його підсилять новими ШІ-інструментами як на основі власної ШІ-відеомоделі Firefly, так і завдяки (потенційним) партнерствам з OpenAI, Runway та Pika Labs. 

В оновленому Premiere Pro можна буде додавати, видаляти або заміняти об'єкти в кадрі за допомогою текстових підказок. Для цього ви просто вибираєте місце/об’єкт, пишете, що саме треба зробити — і вуаля. Також з’явиться можливість «продовжувати» відео за допомогою Firefly, яка створюватиме футаж на базі ваших відео, та генерація перебивок за допомогою промптів. 

Ще один крутий апдейт — компанія не планує замикати користувача всередині своєї Firefly і хоче інтегрувати інші відеомоделі у Premiere Pro. Так користувачі зможуть обирати модель, яка найкраще працюватиме з їхніми кадрами; у своєму демо Adobe показала роботу Sora від OpenAI, Runway та Pika Labs. Оновлення вийде вже в травні.

Крім того, Adobe пропонує користувачам «купувати» їхні відео для навчання своєї нової відеомоделі. Так юзери можуть отримати близько $3-7 за хвилину відео. Здавалося б, класна історія, етичний підхід, але… 

Але сьогодні ми говоримо не тільки про відео, бо нещодавно з Adobe стався мем — у навчальних даних «етичного» генератора зображень Firefly (який нібито було натреновано на ліцензованому датасеті), знайшли згенеровані картинки конкурентів, більшість з яких створені в Midjourney. А дізналися про це тому, що користувачі, які заливали на Adobe Stock згенеровані зображення, отримали спеціальний бонус за те, що їхні роботи використали для навчання Firefly.

Владислав Безсмертний
Владислав Безсмертний
ШІ-консультант

Найбільше мою увагу в цій історії привертають нові можливості та виклики, що породжують подібні рішення. Такі інструменти ведуть до неодмінного розширення здатностей зі створення нового контенту, і навіть можливо і витворів мистецтва. При цьому постає проблема у вирізненні плагіату або творчого запозичення. Думаю, що значну перспективу мають рішення, продукти та стандарти, що будуть забезпечувати аналіз наявності у згенерованому контекті плагіату та запозичень.

У DeepMind навчили роботів грати в футбол. Навіщо? 

Дослідники з Google DeepMind та Кембридзького університету навчили мініатюрних людиноподібних роботів грати у футбол. Ні, метою дослідження не було створити нових Ліонеля Мессі та Кріштіану Роналду — найпопулярніший у світі спорт допомагає вирішити більш верхньорівневу проблему — «олюднення» рухів роботів. Це дуже довга і цікава робота — пейпер знайдете тут

Взагалі вчені спочатку навчали роботів базових навичок — ходіння, вставання, повороти. Вони використовували навчання з підкріпленням (коли система навчається, безпосередньо взаємодіючи з середовищем) замість того, щоб програмувати тих на певні рухи. Проте тут були й мінуси: виявилось, що як тільки робот навчався долати перешкоди певним чином, він робив це однаково, не намагаючись знайти нові способи. До того ж часто це відбувалося у неприродній для людини спосіб, що не є практичним для подальшої розробки роботів. 

Футбол з його динамічними рухами ідеально підійшов для того, щоб зробити дії роботів більш схожими на людські. Спочатку це були симуляції ігор, а тепер у футбол грають вже реальні роботи. Їхні рухи все ще далекі від ідеальних, вони можуть кумедно впасти чи вдарити м’яч у суперника замість воріт.

Але підхід вчених дійсно працює — у порівнянні з запрограмованими роботами, ті з них, які навчалися за допомогою ШІ, ходять (х3), розвертаються (х5) і встають (на 63%) швидше. З часом роботи почали не тільки бігати та бити м’яч, а й самостійно «вигадували» різні трюки, щоб збільшити ймовірність забити гол чи захиститись від атаки суперника. 

Владислав Безсмертний
Владислав Безсмертний
ШІ-консультант

Доволі цікавий експеримент з низькими ставками. Маю на увазі, що успіх або провал таких рішень, навряд суттєво вплине на розвиток індустрії та людства загалом. Як показує сьогодення, роботизовані системи є надважливими у більш критичних галузях застосування із «високими ставками», а саме у сферах безпеки та оборони, охорони здоров’я, виконання важких та небезпечних робіт. 

Що ще нового у світі ШІ

💡За ці кілька тижнів відбулось багато анонсів нових моделей або апдейт існуючих: 

  • Користуєтесь платним ChatGPT? Вітаємо, тепер він має працювати краще, адже OpenAI викатили на нього оновлення — тепер GPT-4 Turbo має покращені можливості письма, математики, логічного мислення, кодування та володіє сучаснішою базою знань (до грудня 2023-го). Відповіді чат-бота будуть прямішими та менш багатослівними. Невдовзі після цього GPT повернув собі лідерство на арені чат-ботів. Крім того, компанія відкрила офіс у Токіо та оптимізувала GPT-4 для японської мови. 
  • Стартап Reka випустив свою найпотужнішу мультимодальну LLM — Reka Core, яка може працювати з текстом, зображеннями, аудіо та відео. За словами розробників: це лише друга модель у світі після Gemini, яка охоплює всі модальності та забезпечує високу якість вихідних даних. Модель підтримує 32 мови, має контекстне вікно у 128к токенів, якісно працює з кодом, математикою та вміє «розмірковувати». І загалом працює майже на рівні GPT-4, попри те, що на її розробку пішло менш як рік. 
  • Cohere нещодавно випустила Command R+ — LLM, яка в момент написання цього дайджесту займає сьому сходинку на арені чат-ботів, залишивши позаду Claude Haiku, Mistral Large і навіть деякі версії GPT-4. Водночас модель значно економніша за більшість інших + працює на рівні або навіть перевершує конкурентів за деякими показниками. 
  • Нову модель також представили в Mistral — Mixtral 8x22B. Вона має 176 млрд параметрів та контекстне вікно у 65к токенів, що забезпечує їй перевагу над попередніми версіями та моделями конкурентів на кшталт GPT-3.5 та Llama 2. Mixtral 8x22B використовує архітектуру Sparse Mixture of Experts (SMoE), яка оптимізує продуктивність і вартість, завдяки чому модель потребує лише 44 мільярди активних параметрів для відповіді. Затестити можна тут. Сама компанія, до речі, зараз веде переговори з інвесторами щодо нового раунду фінансування на кілька сотень мільйонів доларів з оцінкою близько $5 млрд.
  • xAI Ілона Маска представив Grok 1.5 — головне оновлення стосується того, що модель тепер може працювати з зображеннями. Ще з цікавого — компанія представила власний бенчмарк RealWorldQA, який вимірює просторове розуміння реального світу. Нізащо не вгадаєте, яка ж модель стала найкращою у світі за ним (хоча, звісно, ви здогадались, що це Grok). Поаплодуємо маркетинговій команді xAI! Сама модель стане доступною найближчими місяцями. 
  • Meta анонсувала вихід Llama 3 у травні; до кінця року відбудеться реліз інших версій моделі. Від компанії очікують конкуренції з GPT-4 та Claude — подивимось, чи зможе Meta відстояти честь оупенсорсу. Тим паче, повідомляється, що Meta та OpenAI готуються випустити AI-моделі, які зможуть мислити, як людина. 

🖼З 15 травня інструменти Google Magic Editor, Magic Eraser, Photo Unblur і Portrait Light стануть безплатними (раніше вони були доступними через підписку Google One або на смартфонах Pixel). Magic Editor дозволяє рухати, видаляти об’єкти, міняти кольори чи центрувати фото. Magic Eraser видаляє небажані елементи. Photo Unblur використовує ML для підвищення чіткості розмитих фотографій. Portrait Light дозволяє змінювати джерело світла на фотографіях.

🥷Google представила Vertex AI Agent Builder, який дозволяє створювати AI-агентів без або майже без коду. Так, користувачі можуть встановлювати мету та надавати інструкції природною мовою на кшталт «Ти допомагаєш розробляти дизайни кімнат», «Привітай користувача, а потім запитай, чим ти можеш бути корисним» тощо. Ці агенти зможуть  виконувати Python-скрипти, збирати інформацію з баз знань/гуглити та навіть передавати запити субагентам. Фактично Vertex AI Agent Builder об'єднує функції, які конкуренти Google випустили протягом останніх місяців, і робить агентів більш практичними для комерційного використання.

🛑Вийшло багато оглядів на AI Pin від Humane (текст/відео). Спойлер — це провал, гаджет не виправдав хайпу. Він гріється, помиляється/не відповідає на запити, бо не може під'єднатися до сервера, повільно працює та вимагає щомісячної підписки за $24, без якої Pin не працюватиме, і ще багато різного. Але сама ідея подібного гаджета цікава — за належної реалізації матиме перспективи. 

💭В Poe тепер можна перемикатися між різними моделями в одному чаті (для цього треба написати @ і назву моделі). Зручно, якщо хочете порівняти якість відповідей на один і той самий запит, або ви знаєте, що з аналізом дослідження вам краще допоможе одна модель, а зі створенням допису на LinkedIn про цю роботу — інша. Також компанія запустила нову форму монетизації — тепер розробники будуть отримувати прибуток за кожну взаємодію користувачів з їхньою LLM. 

🎹Spotify викатив в беті можливість генерувати плейлисти за промптами. Можна буквально писати «саундтрек для мандрівників у часі, що застрягли в 17 столітті» чи «вечірка на космічному кораблі» та отримати купу нової музики. Плейлист можна буде редагувати — «більше регі», «менш веселі треки» тощо. Інструмент поки доступний для користувачів Android у ВБ та Австралії — чекаємо в Україні!  

🎵І ще трохи про музику: колишні дослідники Google DeepMind запустили новий застосунок Udio, який дозволяє генерувати повноцінні аудіотреки за допомогою текстових підказок. Користувачі та експерти в захваті від Udio, кажучи, що він перевершує навіть Suno V3, про яку ми детально розповідали у минулому випуску

📱Сем Альтман та Джоні Айв, які об’єднали зусилля для роботи над секретним гаджетом, що має замінити смартфони, шукають фінансування у мільярд доларів і вже активно спілкуються з потенційними інвесторами. Але у все більшої кількості людей виникають питання щодо зростаючого впливу Альтмана на індустрію. 

📈Стенфордський університет опублікував звіт AI Index 2024. Головне з нього: тренування найкращих моделей стає ДУЖЕ дорогим (GPT-4 коштувала близько $78 млн, Gemini — $191 млн). Бізнес домінує у дослідженнях ШІ — 51 нова модель проти 15 від наукових кіл. Інноваційні ШІ-інструменти значно прискорюють науковий прогрес. Люди стають все більш продуктивними, а якість їхньої роботи зростає завдяки ШІ. Водночас все більша кількість людей усвідомлює потенційний вплив технології та боїться його. 

🤖Boston Dynamics представила робота-гуманоїда Atlas. У компанії стверджують, що це — результат десятиліть досліджень, а Атлас стане потужним і корисним роботом, який вирішить найскладніші завдання в сучасній промисловості. 

🌍Microsoft оголосила про інвестицію в розмірі $1,5 млрд в компанію G42 з Абу-Дабі, яка є лідером у розвитку штучного інтелекту в ОАЕ. Ця угода — не просто комерційна співпраця двох ШІ-гігантів; інвестиція відбулась на тлі занепокоєння американських політиків щодо зв'язків G42 з Китаєм, але схоже, що компанія вирішила «відхреститися» від них, розірвавши відносини з ByteDance та іншими. Натомість партнерство з Microsoft надасть G42 доступ до Azure та інших технологій, а Microsoft отримає широкий доступ до ринку ОАЕ та сусідніх країн. 

Цікаве з мережі

Останні досягнення в галузі штучного інтелекту надають роботам нові можливості, які ще кілька років тому здавалися фантастикою. Інтеграція ШІ дозволяє машинам швидше навчатися, адаптуватися до нових умов і виконувати все складніші завдання. Ця тиха революція відкриває шлях для появи по-справжньому корисних роботів, здатних полегшити наше життя. Але що конкретно змінилося і чого чекати в найближчому майбутньому?

Традиційно роботи краще працювали в добре контрольованому середовищі — на заводах або в лабораторіях. Але непередбачуваність реального світу — різні інтер'єри, діти й тварини, що бігають під ногами, одяг, який треба складати — завжди була для них надто складним викликом. Серед робототехніків є відоме спостереження: те, що важко для людей, легко для машин — і навпаки. Цей феномен, відомий як парадокс Моравека, ще у 1980-х сформулював Ганс Моравек — робототехнік з Інституту робототехніки університету Карнегі-Меллон. Робот може без проблем грати в шахи чи тримати важкий предмет нерухомо годинами. Але зав'язати шнурки та пограти в футбол — зовсім інша справа.

Але ця ситуація починає змінюватися.

Щоб навчити робота нових навичок, дослідники зазвичай ретельно прописували кожен рух. Такий підхід працював у лабораторії, але за її межами був провальним. Проте ситуація починає змінюватися.

Ключем до прориву став штучний інтелект. Якщо раніше інженери більше концентрувалися на фізичному «тілі» роботів, то тепер вони зрозуміли: щоб зробити машини по-справжньому корисними, їм потрібен «мозок». Сучасні алгоритми нейромереж, дозволяють роботам аналізувати величезні обсяги даних і самостійно навчатися. Це відкриває простір для експериментів і дозволяє машинам вчитися набагато швидше.

Зараз дослідники використовують два основні підходи:

  • 1
    Навчання з підкріпленням (reinforcement learning) — техніка, що дозволяє роботам самовдосконалюватися методом спроб і помилок. Саме так інженери з Carnegie Mellon навчили своїх чотириногих роботів долати перешкоди і навіть освоювати паркур. Цей метод використовують вчені з Deepmind, які навчають роботів футболу.
  • 2
    Імітаційне навчання (imitation learning) — робот вчиться, спостерігаючи за діями людини. Цей підхід, у поєднанні з генеративним ШІ, вже дозволив машинам опанувати понад 200 навичок: від чищення овочів до приготування їжі. Імітаційне навчання входило і виходило з моди протягом останніх десятиліть, але останнім часом стало більш популярним для роботів, які виконують маніпуляційні завдання. 

Втім, для суттєвого прогресу в робототехніці лише ШІ-алгоритмів не вистачить. Їм потрібно на чомусь навчатися. І якщо текстові ШІ(на кшталт чат-ботів) можуть використовувати для цього мільярди сторінок з інтернету — з роботами трохи важче.

Щоб створювати дійсно корисних роботів, дослідникам потрібні величезні бази даних з інформацією про людську поведінку: як ми відчиняємо двері, складаємо одяг, готуємо їжу тощо. Збір таких демонстрацій «вручну» займає безліч часу. Аби пришвидшити процес — науковці розробляють кмітливі рішення:

  • використовують смартфони, щоб люди могли самостійно знімати, як вони виконують побутові справи, імітуючи «погляд» робота;
  • об'єднують зусилля різних лабораторій по всьому світу для створення «робо-інтернету» — великих уніфікованих баз даних;
  • застосовують комп'ютерний зір та аналіз текстів/зображень, щоб робот міг навчатися, спостерігаючи за людьми на відео з інтернету.

Перші результати обнадійливі. Моделі роботів, треновані на об'єднаних базах, на 50% краще освоюють нові навички порівняно з тими, що навчалися локально. Тобто збільшення обсягів даних значно пришвидшує розвиток домашніх роботів-помічників — головне мати можливість їх збирати та обробляти.

Попри винятковий прогрес, для масового впровадження побутових роботів доведеться подолати ще чимало перешкод. Зараз машини все ще занадто незграбні, щоб більшість споживачів погодилися витратити на них десятки тисяч доларів. Роботам бракує елементарного здорового глузду, щоб виконувати кілька завдань одночасно. Вони здатні підняти й переставити предмет, але зібрати, наприклад, настільну гру в коробку і покласти її до шафи — це вже надто складна задача.

Але судячи з теперішніх результатів, інтеграція ШІ — це вихід з глухого кута. Дослідники впевнені, що за кілька років ми побачимо перші справді корисні домашні роботи, хоч і за захмарними цінами.

Водночас робота над роботами, що були б корисними, як хатні помічники, — це не тільки про полегшення наших побутових клопотів. Для багатьох вчених це можливість визначати, наскільки штучний інтелект наближається до людського. Зрештою, дім — це середовище, в якому ми щодня демонструємо, на що здатен людський розум. Якщо робот впорається тут, то він і справді розумний.

Новий подкаст з Даріо Амодеєм, CEO Anthropic

Яким наше майбутнє бачить керівник одного із головних конкурентів OpenAI? Знайомтесь, Даріо Амодей, CEO Anthropic, компанії, що працює над чат-ботом Claude. Амодей сходив на подкаст NYT — ловіть вижимку: 

Експоненціальна крива розвитку AI: Амодей бачить два дуже різні ритми у розвитку ШІ. Перший — це експоненціальна крива покращення самої технології. Другий — те, як суспільство бачить і реагує на ці зміни. І між ними є серйозний розрив. Для ілюстрації: OpenAI ще у 2018 зробили GPT-1, використовуючи в 100 тис. разів менше обчислювальних ресурсів, ніж сьогоднішні моделі. Люди, які працювали з технологією ще тоді розуміли її потенціал. Але знадобилося ще кілька років, перш ніж ChatGPT змінив правила гри для всього світу та вивів ШІ у мейнстрим. 

Скоро всі «охнуть» від прогресу ШІ: Anthropic зараз працює над покращенням здатності ШІ-моделей розв’язувати складні завдання та виконувати дії в реальному світі. Щоправда, таймлайн цього невідомий — це може статися як за три місяці, так і за півтора року. Точно можна сказати, що прогрес буде дуже стрімким: спочатку ШІ допоможе програмістам автоматизувати їхню роботу, потім «охнуть» біологи, усвідомивши, як ШІ пришвидшує наукові відкриття. Амодей очікує появи «100 різноманітних AlphaFold» у найближчому майбутньому.

Чи можемо ми зробити ШІ чесним: Anthropic провели дослідження того, наскільки переконливою може бути їхня остання модель Claude 3 Opus (детальніше про це можна почитати тут). Виявилося, що модель майже так само ефективна в переконанні, як і люди. Що тривожно, якщо дозволити ШІ викривляти факти чи брехати, вона стає ще переконливішою, ніж звичайна людина. Водночас Амодей сподівається, що з часом ми зможемо використовувати ШІ для посилення критичного мислення та формування «імунітету» до маніпуляцій у людей. Хоча поки незрозуміло, як саме це робити.

Гонитва озброєнь і необхідність регулювання: приватним компаніям не варто довіряти необмежену владу надпотужним ШІ. Саме тому Anthropic розробив т.зв. «План відповідального масштабування» (Responsible Scaling Plan, RSP). Він визначає «рівні безпеки ШІ», і які заходи треба вживати на кожному етапі. Anthropic зараз на рівні 2. Рівень 3 пов'язаний з ризиком неправильного використання ШІу біології та кібербезпеці. Рівень 4 — це вже повна автономність систем та здатність відтворюватися «в дикій природі». Амодей очікує досягнення ASL 3 вже цього чи наступного року, а ASL 4 — десь у 2025-28 роках. Anthropic сподівається, що уряди будуть використовувати такі плани для регулювання індустрії.

Брак енергії та чіпів може обмежити розвиток ШІ: за сучасними моделями стоять величезні датацентри, які споживають шалену кількість енергії. Вже зараз Microsoft відкриває новий датацентр кожні 3 дні. Постачання спеціалізованих чіпів може стати проблемою, якщо, наприклад, загостриться конфлікт між Китаєм і Тайванем. Геополітичне домінування країн у сфері ШІ багато в чому залежатиме від контролю над обчислювальними ресурсами.

Інтелектуальна власність — ще один виклик: використання загальнодоступних даних для тренування ШІ є цілком законним. Водночас Амодей визнає, що розвиток ШІ може серйозно вплинути на бізнес-моделі тих, хто ці дані створює: ЗМІ, авторів контенту тощо. Anthropic шукає способи монетизації, які дозволять справедливо ділитись доходами з кріейторами. Але в цілому ШІ приведе до фундаментальних зрушень у всій економіці — деякі професії повністю трансформуються. Нам доведеться винайти нові способи організації праці, як свого часу при переході від аграрного до індустріального суспільства.

Про дітей: на запитання про те, як у світі потужного ШІ виховувати дітей, Амодей відверто відповів: «Я не знаю, не маю жодного поняття». Можна дати лише банальні поради на кшталт «вчити дітей адаптивності» та «знайомити їх з новими технологіями». Водночас він вважає, що поява ШІ не обов'язково означатиме, що людям більше не потрібно буде думати чи творити. Вміле використання ШІ буде доповнювати та розширювати людські здібності, а не заміняти їх повністю (принаймні спочатку).

Ми остаточно перестанемо розуміти ШІ: зараз ми робимо певний прогрес у розумінні того, що відбувається всередині моделей — але цей прогрес відстає від темпів розвитку самих моделей. Тож цілком можливо, що через кілька років ми матимемо суперпотужні системи, які самі не зможемо до кінця збагнути. А це додатковий фактор ризику.

Чи зможе ШІ генерувати принципово нові знання: Амодей скептично ставиться до думки, що ШІ лише «пережовує» дані, на яких його натренували. Він вважає, що у певний момент моделі почнуть демонструвати справжню креативність і здатність продукувати нові знання. Як доказ він наводить те, що сучасні моделі можуть робити арифметичні операції з точністю 99.9%, хоча у тренувальних даних з інтернету точність набагато нижча. Тобто моделі виявились «розумнішими», аніж просто середнє арифметичне даних.

На які жертви готові компанії заради безпеки: плани відповідального масштабування передбачають, що в певний момент розробникам, можливо, доведеться призупинити розвиток систем, якщо ризики занадто зростуть. Але чи готові вони будуть на це піти, особливо якщо конкуренти продовжать перегони? Амодей припускає, що це буде реально, якщо небезпека буде справді явною і визнаною всіма. Але чи не буде тоді вже запізно?

Загадкова згадка AGI: коли інтерв’юєр перепитав Амодея, чи дійсно той вважає досягнення небезпечного рівня ШІ реальним у наступні 3-5 років, Амодей підтвердив, що це реально. При цьому він уникнув терміну AGI, але фактично мова йшла про щось дуже близьке до AGI за можливостями. Тож здається, що керівники провідних ШІ-компаній справді вважають це ймовірним сценарієм.

Що почитати: кілька порад від Амодея — «The Making of the Atomic Bomb» Річарда Родса — про стрімкий розвиток технології, що змінила світ; серія науково-фантастичних романів «The Expanse», де люди опановують космос, але стикаються з новими викликами; «The Guns of August» про початок Першої світової — як кризи розгортаються блискавично, і як легко припуститися фатальних прорахунків.

Традиційний мем на добивочку :)  Традиційний мем на добивочку :) 
Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

Каліфорнійка подала позов проти Microsoft за збір особистих даних покупців секс-іграшок

Вікторія Рудзінська 20 годин тому

Apple планує інтегрувати Google Gemini в свої пристрої

Вікторія Рудзінська 22 години тому

Google допомагає постачальникам зменшити викиди завдяки новим енергетичним проєктам

Вікторія Рудзінська 23 години тому

Apple готується додати функції штучного інтелекту до Vision Pro

Вікторія Рудзінська 1 липня 2024 07:04

Хакери з росії Midnight Blizzard зламали листування між Microsoft та держустановами Техасу

Максим Красіков 29 червня 2024 14:00