Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: оупенсорс-революція, музичний ChatGPT, українські ШІ-дрони

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
8 квітня 2024 16 хвилин читання

Що два тижні інвестиційна група Roosh разом із найбільшим та найпотужнішим ШІ-ком'юніті в Україні AI HOUSE збирають найцікавіші новини та історії зі світу ШІ у дайджесті «AI несеться». Уже за десять хвилин ви будете в курсі найважливішого, що відбувалося в індустрії за останній час.

Сьогодні розібратись у бурливому світі штучного інтелекту нам допоможе Олександр Косован — Head of Data Science в ExpoPlatform та ментор AI HOUSE CAMP 2023. 

Оупенсорс-революція на підході? 

Databricks випустила DBRX, найпотужнішу оупенсорсну LLM-ку з усіх, що є зараз. Вона краща за Llama 2 70B, Mixtral-8x7B, Grok 1 і навіть «закриту» безоплатну GPT-3.5. І демонструє кращі навички в розумінні мови, програмуванні, математиці та логіці. 

DBRX DBRX

Модель розробила компанія Mosaic AI, яку Databrick викупила, а потім оптимізувала модель, підвищивши її ефективність за допомогою архітектури mixture-of-experts (MoE) з майже 136 млрд параметрів. 

Крім того, DBRX може повністю поміститися на Macbook Pro, що відкриває шлях до LLM-powered функцій на комп’ютерах. Розробники кажуть, що на DBRX витратили лише $10 млн, трохи понад два місяці роботи і 3100 відеокарт Nvidia H100, а цим релізом вони кидають виклик закритим моделям. Потестити модель можна тут.

Олександр Косован
Олександр Косован
Head of Data Science в ExpoPlatform

Перші враження викликають вау-ефект. Databricks дійсно вразила своєю роботою над оптимізацією, опція запуску на CPU виглядає привабливо. Також DBRX гарно враховує прописані інструкції, що не часто зустрінеш у відкритих моделях. Поверхове тестування мене задовольнило, але досі залишаються невирішені обмеження, як-от галюцинації. Загалом я впевнений, що DBRX здатна суттєво вплинути на індустрію та дослідження у цій сфері, оскільки ми маємо розкриті можливості для проведення різноманітних нових експериментів і впроваджень.

Одна архітектура — добре, а дві — краще

Компанія AI21 Labs представила Jamba. Її фішка — контекстне вікно у 256к токенів, поєднання архітектур Structured State Space (SSM) і традиційних трансформерів. Так Jamba стала першою у світі моделлю, побудованою на архітектурі Mamba, що здатна розв’язувати реальні завдання. 

Jamba Jamba

Розробники пояснюють, що вирішили створити такий гібрид, оскільки ефективність роботи трансформерних моделей падає зі збільшенням контексту; причому чим більше вхідних даних, тим важче та дорожче їх обробляти. Mamba розроблена для розв’язання цих проблем, але ця архітектура погано вловлює весь контекст, коли інформації дуже багато. 

Так на світ і з’явилась архітектура Jamba — Joint Attention and Mamba, що складається з кількох «шарів» — Трансформерів, Mamba та MoE з 12 млрд активних параметрів і 52 млрд загалом. Це єдина модель у своїй «ваговій категорії», що здатна обробляти контекст у 140 тис. токенів на одному графічному процесорі. 

Розробники впевнені, що це — лише початок, і подальша оптимізація цього підходу дозволить отримати ще кращі результати. Детальніше роздивитися модель можна на HuggingFace.

Олександр Косован
Олександр Косован
Head of Data Science в ExpoPlatform

Довжина контекстного вікна залишається актуальним питанням, і багато компаній шукають власні способи розв’язання цієї проблеми. Ідея, яку втілили AI21 Labs, мені особливо сподобалася. Цікаво, як збільшення розміру вікна контексту вплине на швидкість моделі, а також як модель впорається з багатошумовою контекстною інформацією. Особисто я в очікуванні реакції ринку і буду сподіватися, що проблема вирішиться.

Автоматична еволюція LLM

Японський стартап Sakana AI створив три нові японськомовні ШІ-моделі — LLM-ку EvoLLM-JP, що вміє генерувати якісний текст японською та знається на математиці; генератор зображень EvoSDXL-JP і візуально-мовну модель EvoVLM-JP (GitHub і HuggingFace на місці). Але нам цікаві не стільки моделі, скільки те, як їх створили. 

Так японці розробили алгоритм Еволюційного об’єднання моделей (Evolutionary Model Merge), «схрещуючи» сотні різнопланових моделей, найкращі з яких ставали основою для їхніх фінальних продуктів. І все це автоматично: якщо спростити, можна сказати, що Sakana створила ШІ, який допомагає відбирати та «схрещувати» моделі, щоб на виході отримати найкращий результат. 

У своїй статті команда пояснює, що такий підхід дозволяє створювати нові моделі без перенавчання та є більш економним. А їхній інноваційний алгоритм, на основі якого все це працює, дозволяє шукати оптимальні комбінації моделей та комбінувати їх. Наприклад, їхня LLM-ка на 7 млрд параметрів зрештою перевершила інші найсучасніші японські моделі на 70 млрд параметрів за багатьма бенчмарками. 

Олександр Косован
Олександр Косован
Head of Data Science в ExpoPlatform

Розвиток моделей для конкретних мов є важливим кроком у розвитку сфери ШІ, тому досягнення Sakana AI дійсно вражає. Вони не лише адаптували наявні моделі до японської мови, а й розробили зовсім нове рішення. Еволюційна оптимізація та об'єднання моделей звучать захопливо — схоже на те, що зазвичай можна було побачити лише у науково-фантастичних фільмах. Цікаво, як цей підхід буде розвиватися.

Багато оновлень від OpenAI

Open AI Open AI
  • Різні креативники та художники отримали доступ до Sora. Вийшло дуже гарно. Професіонали кажуть, що інструмент допомагає втілити у життя раніше недосяжні ідеї, тобто хайпують (ось тут можна почитати, що і як саме вони робили). Паралельно OpenAI веде переговори з голлівудськими кіностудіями та агенціями щодо використання їхньої технології у майбутньому. Деякі актори та режисери вже отримали доступ до Sora та тестують її. Цікаво, що з того вийде. 
  • Voice Engine — новий ШІ-інструмент компанії для клонування голосу, якому достатньо 15-секундного уривка, щоб скопіювати акцент та емоційне забарвлення спікера, причому на різні мови. Саме ці голоси ви можете чути, коли озвучуєте відповідь у ChatGPT. Доступ є в обмеженої кількості користувачів, оскільки в OpenAI розуміють, що Voice Engine, як і Sora, буде справжнім подарунком для пропагандистів. Також у компанії вивчають потенційний вплив технології на роботу акторів озвучки. 
  • ChatGPT нарешті навчився редагувати зображення. Все просто: виділяєте, що ви хочете змінити, та пишете, як саме.  
  • Запустилась програма оплати за використання кастомних GPT, створених користувачами. Поки що це пілот, обмежений обраною групою розробників у США. Подивимось, як воно піде далі. 
  • ChatGPT залишатиме посилання, звідки він брав інформацію для генерації відповіді, якщо для цього використовувався інтернет, але лише для платних підписників. 
  • Тепер ChatGPT можна використовувати без реєстрації. Доволі буденна новина, яка насправді може бути початковою точкою відліку повноцінного протистояння пошуковика Google та OpenAI, адже тепер доступ до чатбота стає максимально простим для будь-якого користувача. 
Олександр Косован
Олександр Косован
Head of Data Science в ExpoPlatform

Куди ж без OpenAI. Від моменту анонсу Sora компанія залишається у центрі уваги, а всі представлені демонстрації набули широкого розголосу. Цікаво, справді OpenAI має серйозні побоювання щодо можливого негативного впливу Sora та Voice Engine на суспільство чи все ж інструменти не контрольовані настільки, щоб їх випускати у світ. Серед усіх оголошених удосконалень ChatGPT мене особливо зацікавила обіцянка про те, що чатбот буде надавати посилання на джерело, з якого він узяв інформацію для генерації відповіді. Це смілива заява, і я з нетерпінням чекаю, щоб перевірити це на практиці.

Що ще нового у світі ШІ

🎯Україна використовує дрони з ШІ (якщо бути точнішими, то йдеться про машинний зір) для ударів по російським нафтопереробним заводам. Штучний інтелект використовують для навігації (тобто дрони не потребують зв’язку з супутниками), ідентифікації цілі та уникнення перешкод, що створюють російські засоби РЕБ, завдяки чому безпілотники б’ють з точністю до метрів. Попри те що такий рівень автономності дронів досягли вперше, експерти запевняють, що це лише початок розвитку подібних технологій. 

🖥OpenAI та Microsoft хочуть створити величезний датацентр вартістю понад $115 млрд, де буде ШІ-суперкомп’ютер Stargate, який працюватиме на мільйонах спеціалізованих мікрочипах. У компаніях вважають цей проєкт критично необхідним для досягнення AGI. Запуск суперкомп’ютера запланований на 2028 рік, а у 2026-му має запрацювати менший суперкомп’ютер, розроблений спеціально для OpenAI. 

🧠Дослідники зі Стенфорду розробили Quiet-STaR — новий метод навчання, який дозволяє ШІ-моделям генерувати внутрішній монолог, тобто «думати» перед відповіддю. Протестувавши метод на Mistral 7B, дослідники виявили покращення майже удвічі у тестах на математику та логічне мислення.

⚙️xAI випустив Grok 1.5, який краще думає, вміє в математику і програмування та має контекстне вікно у 128К токенів. Маск вже розганяє хайп і каже про роботу над Grok 2, який «перевершить всі сучасні ШІ за всіма метриками». 

🔝Claude 3 обійшла GPT-4 на арені чатботів, топові моделі від OpenAI майже рік незмінно очолювали цей рейтинг. Тим часом Amazon доінвестував $2,75 млрд в Anthropic, довівши загальну суму до $4 млрд. Це найбільша в історії зовнішня інвестиція компанії. 

🤝Apple веде переговори з Alphabet, OpenAI та Anthropic щодо інтеграції генеративного AI в iOS, розглядають навіть залучення кількох партнерів. Наприклад, у Китаї компанія вже заручилася підтримкою місцевого технологічного гіганта Baidu. Офіційне оголошення фінального рішення щодо інших компаній та AI-функцій, які з’являться в айфонах після «найбільшого оновлення» iOS, очікується 10 червня на конференції WWDC 2024. 

🍏Також в Apple стверджують, що їхня нова ШІ-модель ReALM працює краще за GPT-4 (пейпер тут). ReALM не тільки розуміє текстові промпти, але й «бачить» та «розуміє» те, що відбувається на екрані девайса. Потенційно це покращить користувацький досвід. Наприклад, можна буде попросити Siri відкрити певний застосунок або зателефонувати на якийсь номер, що треба знайти в інтернеті. 

🤖Ubisoft представила прототип проєкту NEO AI NPC, мета якого — зробити ігрових ботів більш живими, підвищити реалістичність світу та занурення гравців. NEO NPCs можуть відповідати на репліки та запитання людини плюс розпізнавати емоції та адаптувати під них свою поведінку. Над подібним концептом працюють і у Nvidia: компанія стверджує, що NPC під управлінням ШІ роблять кожне проходження гри унікальним, а те, як із ними взаємодіє гравець, приводитиме до абсолютно різних відповідей і результатів. 

🖼У MIT розробили фреймворк DMD (Distribution Matching Distillation), який пришвидшує процес генерації зображень моделями на кшталт DALL-E чи Stable Diffusion у 30 разів, зберігаючи або навіть покращуючи їхню якість. Цей підхід спрощує багатокроковий процес генерації картинок до одного кроку, використовуючи модель «вчитель-студент», щоб навчати комп'ютерну модель наслідувати поведінку складніших моделей. Пейпер тут

💻У браузері Opera тепер доступні понад 150 ШІ-моделей, серед яких Mixtral, LLama, Gemma та інші. Така інтеграція значно прискорює взаємодію з чатботами та забезпечує конфіденційність, адже дані не відправляються на сервери компаній, а відбуваються «безпосередньо на комп’ютері». 

💰Група великих технологічних компаній серед яких Google, Samsung, Intel, Qualcomm та інші об’єднуються, щоб кинути виклик Nvidia на ринку ШІ-чіпів. Група під назвою The Unified Acceleration Foundation розроблятиме ПЗ з відкритим вихідним кодом, щоб «відв’язати» ШІ-розробників від Nvidia та дати можливість їхнім програмам працювати на будь-якій техніці з будь-якими чипами. 

🍻Штучний інтелект тепер допомагає покращувати смак пива. Бельгійські дослідники проаналізували хімічні властивості та ароматичні сполуки 250 видів пива, а також зібрали понад 180 тис. відгуків на одній з онлайн-платформ. На основі цих даних вчені створили ШІ-моделі, які передбачають смак пива та вірогідність того, що воно сподобається споживачам. Cheers!

Цікаве з мережі: музичний ChatGPT, або Як працює Suno

Suno Suno

Про цю компанію ми вже кілька разів згадували у своїх ньюзлетерах — тепер прийшов час познайомитися з ними ближче. Так, за останній рік генеративний ШІ прокачався у написанні текстів, коду, генерації зображень, голосу, відео (привіт, Sora). Проте ще один вид контенту — музика — поки що відстає. Suno AI працює над розв’язанням цієї проблеми, адже їхній ШІ-інструмент (отакий от каламбур) генерує неймовірні треки та пісні, хоча поки що може плутатись у стилях. 

Нещодавно Suno тримала оновлення до V3 — журналісти американського журналу Rolling Stone протестували її і розказали про свої враження та місію компанії у своєму новому матеріалі. Журналіст створив пісню у стилі блюз Soul of the Machine і називає це «найпотужнішим і найтривожнішим» творінням ШІ, з яким він стикався у будь-якому медіумі. 

Suno всього два роки. Співзасновники стартапу Майкі Шульман, Кінан Фрайберг, Георг Куцко та Мартін Камачо — чотири ML-ника, які до 2022 року працювали разом у компанії Kensho Technologies, яка пропонувала бізнес-рішення за допомогою ШІ. Всі четверо працювали над технологією транскрипції телефонних дзвінків, де і побачили перспективу застосування штучного інтелекту в аудіо; тим паче що Шульман і Фрайберг вже певний час займалися музикою та часто разом грали на джем-сесіях. 

Спочатку команда думала створили слуховий апарат або шукати несправності у техніці за допомогою аудіоаналізу. Натомість їхнім першим продуктом стала програма для перетворення тексту на мову під назвою Bark. Після опитування перших користувачів Bark, стало зрозуміло, що людям цікавий напрям генератора музики — так на світ з’явився стартап Suno AI, де зараз працює багато музикантів.

Технологія Suno базується на такому самому підході, що й LLM, розбиваючи музику на дискретні елементи або токени, навчаючись на великих масивах даних, щоб зрозуміти нюанси музичних композицій, а потім збирати їх за певним запитом. Проте працювати з аудіо набагато важче, ніж з мовою, через неперервну природу музики, яка за секунду може генерувати десятки тисяч токенів. 

Шульман детально не пояснює, що саме вони зробили, щоб створити Suno, але зазначає, що для цього знадобилося «багато евристики, трюків і моделей». Водночас те, як зараз працює Suno — далеко не ліміт; в майбутньому розробники хочуть відійти від моделі «текст-музика» і додавати більш релевантні вхідні дані на кшталт співу користувачів, з якого ШІ-інструмент буде робити повноцінні треки. 

Зараз OpenAI, Midjourney та інші AI-компанії стикаються з численними судовими позовами через використання матеріалів, захищених авторським правом, для навчання своїх моделей. Можливо тому засновники Suno також не горять ділитися своїм датасетом, проте зазначають, що їхня модель вчиться не лише на музиці, а й на записах мовлення. Такі «голосові» семпли допомагають штучному інтелдекту вловити різні складні характеристики людського голосу. 

Один із ранніх інвесторів зізнається, що очікує на можливі судові позови від музичних лейблів та видавців, але називає їх «ризиком, який ми повинні були взяти на себе». За його словами, Suno — це одночасно потужний і простий у використанні музичний інструмент, який може зробити музику доступною для всіх; так само як телефони з камерами та Instagram демократизували фотографію. Також у Suno уточнюють, що співпрацюють з найбільшими лейблами, а їхній інструмент не дозволяє копіювати стилі конкретних виконавців і не використовує їхні голоси. 

Щодо реакції всередині музичної індустрії, то музиканти та продюсери вже давно висловлювали занепокоєння щодо потенційного впливу ШІна бізнес. А днями понад 200 музикантів, серед яких Білі Айліш, Нікі Мінаж, Стіві Вандер, підписали відкритий лист проти використання штучного інтелекту в музиці. Водночас у Suno парирують метафорою, що люди продовжують читати навіть попри те, що і самі вміють писати. «Якщо люди будуть ще більше захоплюватись музикою, більше зосереджуватись на творчості, розвиватимуть свої смаки, це очевидно плюс для всіх митців. Ми не намагаємося їх замінити», — каже Шульман. 

Водночас Suno дійсно може надто вплинути на музичну індустрію через відсутність регулювання ШІ-контенту якщо не на Білі Айліш, то на життя тих, хто пише музику для реклами та різноманітних шоу. ШІ дасть змогу багатьом рекламним агентствам, кіностудіям та іншим гравцям ринку не купувати ліцензії, а генерувати собі музику за 10 доларів на місяць. Або користувачі Suno можуть заполонити стримінгові сервіси своїми роботворіннями.

Головним конкурентом у компанії зараз вважають Dream Track від Google, який має схожий інтерфейс і домовляється з музикантами для використання їхніх голосів. Проте доступ до інструменту зараз має лише невелика тестова база користувачів, а музика, яку генерує Dream Track, звучить не так вражаюче. Також днями Stability AI випустила Stable Audio 2.0 (спробувати можна тут), натреновану на ліцензованому музичному датасеті AudioSparx. Модель може генерувати треки тривалістю до трьох хвилин як за текстовими промптами, так і в форматі audio-to-audio, коли користувачі можуть завантажувати на платформу власні семпли та редагувати їх за допомогою підказок. 

Традиційний мем наприкінці дайджесту :)  Традиційний мем наприкінці дайджесту :) 
Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

Криптореволюція. Як українці відтепер зможуть законно купувати біткоїни на «Prozorro.Продажі»

Дмитро Бойко 8 годин тому

Як запітчити медіа на кшталт Tech.eu та Reuters: 11 порад від журналістів

Катя Бохинська 9 годин тому

Працевлаштування та освіта: як допомогти ветеранам?

Olga Sukhorukova 11 годин тому

Переклад пісень Євробачення за допомогою ШІ: як стерво перетворилося на лисицю, а пожежник — на голуба

Юлія Венцковська 15 годин тому

ЄС розбереться із законами та ChatGPT

Олеся Дерзська 15 годин тому