Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: чатбот всередині вашого смартфона, українці створили першого ШІ-дипломата у світі та як Китай наздоганяє США в індустрії

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
7 травня 2024 17 хвилин читання

Що два тижні інвестиційна група Roosh разом із найбільшим та найпотужнішим ШІ-ком'юніті в Україні AI HOUSE збирають найцікавіші новини та історії зі світу ШІ у дайджесті «AI несеться». Уже за десять хвилин ви будете в курсі найважливішого, що відбувалося в індустрії за останній час. Розібратись у бурливому світі штучного інтелекту нам допоможе Владислав Безсмертний, ШІ-консультант.

ШІ ШІ

Це реально? 

Британський єдиноріг Synthesia анонсував своїх нових ШІ-аватарів, які працюють на базі моделі EXPRESS-1, і виглядають вони ну надто реалістично. І це насправді значний прорив, адже раніше ШІ-аватари часто були далекими від ідеалу і страждали від скутості рухів, нереалістичних емоцій та інших глітчів. Synthesia, схоже, вдалось подолати ці недоліки — ШІ-аватари компанії точно відтворюють емоції та манеру спілкування людей, піднімаючи планку реалістичності технології на небачену висоту.

ШІ-аватари

Паростки ШІ-клонування вже зароджуються й у Голлівуді. Агентство Creative Artists Agency запустило пілот проєкту CAA Vault, що дозволяє селебам створювати свої цифрові копії. У партнерстві з ШІ-компаніями CAA створює повноцінні цифрові аватари клієнтів на основі їхнього тіла, обличчя та голосу. Такий «двійник» може допомогти акторам переозвучити себе в іншомовному дубляжі чи «приліпити» своє обличчя на дублера.

Лінію між реальністю та згенерованим контентом планує стирати й TikTok. Дослідники покопалися у коді останнього оновлення застосунку для Android і знайшли там посилання на «Бібліотеку голосів TikTok», а також нову опцію «Створити свій голос за допомогою ШІ». Стверджується, що застосунку знадобиться лише 10 секунд, щоб згенерувати ваш цифровий голос, який потім можна буде використовувати для створення контенту (і бозна-чого ще). Офіційної комунікації з цього приводу ще не було, тому пізніше побачимо, чи правдиві ці чутки. 

Цікавий кейс із використанням синтетичного голосу стався завдяки американському реперу Дрейку, який випустив дис-трек на Кендріка Ламара під назвою «Taylor Made Freestyle», у якому він використав згенеровані голоси реперів Тупака Шакура і Снуп Догга. Хайпанути вдалося, причому настільки, що згодом трек довелося видаляти через погрози судовим позовом від юристів Тупака. Проте якщо хочете його послухати, на Youtube повно (принаймні поки що) треків, які завантажили фанати. 


Регулювання використання ШІ у креативних індустріях відстає від розвитку технологій на роки. Тому вчені з Deepmind закликають обмежити розробку ШІ-моделей, які імітують людей. Це стосується не лише ШІ-клонів чи згенерованих голосів, а й чатботів, які також майстерно імітують поведінку людей і спілкуються природною мовою. Дослідники стверджують, що потрібні серйозні дослідження взаємодії людини і ШІ та навіть обмежити «олюднення» ШІ, щоб уникнути емоційної/матеріальної залежності від технології. 

Ніка Сніжко
Ніка Сніжко
AI Automation Strategist та Prompt Designer @ Paysera

Якість дуже вражає. І це ще збільшує можливості для створення контенту у сфері маркетингу та інших креативних індустріях. Але досі важливим питанням є політика використання та проблема вирізнення оригіналу від продукту, згенерованого ШІ. Тому розроблення стандартів і рішень з виявлення ШІ-контенту має бути настільки ж важливою, як і розроблення нових продуктів та розвиток технології.

Реліз і відгуки про Llama 3 

LLAMA-3 LLAMA-3

Meta випустила дві нові моделі Llama 3 — на 8 і 70 млрд параметрів. Найбільша третя модель на 405 млрд параметрів вийде влітку, проте вже зараз Llama — найкраща оупенсорсна модель, що доступна на ринку. Через це велика кількість користувачів вже перейшли до роботи з Llama замість інших безкоштовних LLM. У Meta кажуть, що продуктивність найбільшої моделі Llama 3 буде близькою до лідерів — GPT-4 Turbo, Claude 3 Opus тощо. 

Відкритим залишається питання, як компанія планує монетизувати свою розробку, адже на неї йде дуже багато ресурсів. Наприклад, бізнес-план Mistral полягає у тому, щоб користувачі експериментували з меншими моделями стартапу, після чого підписувалися на його найбільшу LLM, яка є платною. На додаток компанія працює над інтерфейсом прикладного програмування, який дозволить клієнтам файнт’юнити моделі самостійно і налаштовувати їх під себе. 

Звучить класно, проте насправді користувачі охоче користуються безкоштовними моделями, а гроші віддають за роботу з GPT-4 та Claude Opus, оскільки саме ці моделі є найкращими натепер. Гіпотетично Meta може заробляти опосередковано, використовуючи ШІ-асистента на базі Llama 3, щоб користувачі більше сиділи у продуктах компанії Цукерберга. Крім того, ШІ-інновації можуть допомогти Meta зробити їхню систему рекомендацій ще кращою, збільшуючи доходи від реклами. Проте чи окупить це всі витрати — питання відкрите. 

Ніка Сніжко
Ніка Сніжко
AI Automation Strategist та Prompt Designer @ Paysera

Llama 3 дійсно показує дуже хороші результати. Припускаю, що наразі вони, працюючи безплатно, збирають дані про звички користувачів, щоб покращити модель, щоб уже потім почати монетизувати, маючи найкращу якість серед конкурентів. Якщо результати Llama будуть кращими за GPT, Claude та інші моделі, а ціна буде прийнятною — я впевнена, що буде багато компаній, які будуть готові платити Meta за якість. Адже досить часто бізнеси використовують різні моделі залежно від конкретного завдання та мови.

Проте зараз Meta не потребує генерації доходів від мовних моделей і може не поспішати з монетизацією, адже самі активно використовують їх у своїх продуктах. Це дозволяє їм вдосконалювати залучення користувачів, оптимізувати рекламу та надавати преміальні послуги з аналітики, генерації інсайтів тощо. 

ШІ ШІ

LLM для смартфонів 

Тепер будь-який смартфон чи ноутбук може мати власного ШІ-асистента. Microsoft зарелізив низку компактних мовних моделей Phi-3, серед яких Phi-3 mini. Ця компактна та водночас потужна LLM на 3,8 млрд параметрів спроєктована так, щоб точно імітувати можливості у 10 разів більших моделей, що робить її конкурентоспроможною з більшими моделями ШІ. 

Попри свій розмір, вона показує результати на рівні Mixtral 8x7B і GPT-3.5, досягаючи 69% у бенчмарку MMLU і 8.38 в MT-bench. Крім mini невдовзі будуть доступні також моделі Phi-3 small на 7 млрд параметрів і Phi-3-medium на 14 млрд (вони досі тренуються), які переважать mini за тими самими бенчмарками. 

Для навчання моделі Microsoft створила унікальну базу даних для навчання. Компанія використала розширену версію датасету від Phi-2, де поєднали відфільтровані дані з інтернету і синтетичні дані. Досвід Microsoft демонструє, що правильні методи навчання і якісний датасет дозволяють навіть маленьким LLM демонструвати неабиякі результати. 

Ніка Сніжко
Ніка Сніжко
AI Automation Strategist та Prompt Designer @ Paysera

Phi-3 Mini є значним прогресом для галузі, демонструючи, що менші моделі так само можуть забезпечувати високу продуктивність. Основними обмеженнями моделі, порівняно з іншими LLMs, є обмежена здатність зберігати великі фактичні знання та можливість працювати з багатьма мовами (Phi-3 сфокусована на обробленні англійської мови). 

Попри ці недоліки робота моделі заслуговує на похвалу. Здатність працювати локально на телефоні без потреби підключатися до інтернету відкриває нові можливості для мобільних застосунків. Такий рівень якості в такому малому розмірі є переломним моментом для GenAI-програм. Думаю, що це початок активного розвитку менших мовних моделей та мовних моделей, орієнтованих на спеціалізовані галузі.

Короткі новини

✈️Повітряні сили США розказали про перше успішне випробування повністю автономного ШІ-пілота у повітряному бою. У вересні 2023 року керований ШІ експериментальний літак X-62A провів навчальний повітряний бій проти F-16 під керуванням людини. Хто переміг, американці не розповідають, проте кажуть, що все пройшло добре. 

💣Microsoft запропонувала Пентагону використовувати ChatGPT і DALL-E для розроблення ПЗ військового призначення. ChatGPT міг би допомогти військовим аналізувати документи та обслуговувати техніку, а DALL-E — створювати синтетичні дані для навчання систем управління боєм, що дозволило б комп'ютерам Пентагону краще бачити умови на полі бою. 

🤖МЗС України запустило ШІ-аватар Вікторію для оголошення офіційних заяв. Під час резонансних подій за кордоном міністерство отримує велику кількість запитів; щоб розвантажити речника, в МЗС вирішили створити ШІ-аватара. Щоб запобігти поширенню фейків, усі відео з Вікторією будуть промарковані QR-кодами із посиланнями на офіційну сторінку МЗС України із відповідними заявами.

ШІ-речниця МЗС Вікторія Ші

❄️Snowflake представила свою відкриту мовну модель Arctic (Github — тут, HuggingFace — тут), яка, за словами компанії, перевершує Llama 3 від Meta за деякими метриками, водночас витрачаючи вдвічі менше обчислювальних ресурсів на навчання. Arctic поєднує традиційну трансформерну модель і mixture of experts — Snowflake називає свій варіант «Dense — MoE Hybrid Transformer». Подібний підхід нещодавно використали Databricks у своїй моделі DBRX та стартап AI21 Labs у Jamba, про які ми розповідали у нещодавньому дайджесті.

🐲Китай продовжує нарощувати потужності у сфері ШІ — два нові релізи потенційно можуть скласти серйозну конкуренцію OpenAI і ко: 

  • Компанія SenseTime випустила SenseNova 5.0 — мовну модель на ~600 млрд параметрів з контекстним вікном у 200 тис. токенів, яка перевершила GPT-4 Turbo за деякими бенчмарками. Модель тренували на понад 10 ТБ переважно синтетичних даних і вона демонструє значні покращення у сферах математики, логіки та написання коду. 
  • Тим часом компанія ShengShu представила Vidu, генератор відео з тексту, який нібито не поступається непредставленій Sora від OpenAI. Vidu вміє генерувати 16-секундні відео у роздільній здатності 1080p, точно передаючи освітлення, тіні та емоції. Модель вже продемонстрували на прикладах з пандою-гітаристом та цуценям, що плаває 🎥

🔓На чатбот-арені з’явилася (і вже зникла) загадкова gpt2-chatbot, яка загалом працює на рівні з GPT-4 та Claude Opus, а деякі завдання розв’язує краще за них. Користувачі активно спекулюють, що це стелстест майбутньої GPT 4.5 або наступної ітерації GPT4, проте поки що ніяких деталей немає. Є лише загадковий твіт Сема Альтмана про те, що йому «дуже подобається gpt2».

🖼Adobe додала нові інструменти генеративного ШІ у Photoshop. З найцікавішого — тепер можна давати програмі власне зображення, яке виступатиме референсом для наступних генерацій картинок, змінювати та генерувати фон з нуля та апскейлити зображення. 

📹Сценарист і режисер Пол Трілло випустив перший кліп, повністю згенерований за допомогою Sora від OpenAI. Чотирихвилинний кліп для музиканта Washed Out складається з 55 відео, змонтованих у нескінченний рухомий кадр.  

🍏Apple представила набір із чотирьох мовних моделей OpenELM (270 млн, 450 млн, 1,1 млрд і 3 млрд параметрів, лінки на HuggingFace і GitHub), які завдяки своїм невеликим розмірам можуть працювати локально на пристроях без доступу до хмарних сервісів. Контекстне вікно моделей невелике — всього 2048 токенів — проте це точно не є головною кіллерфічею цих моделей. Паралельно компанія веде переговори з OpenAI для підтримки ШІ-функцій в Айфонах та Маках; проте в Apple ще не визначились з партнером (паралельно тривають переговори з Google).

🧩Ще одна радість для власників айфонів — Anthropic випустив застосунок Claude для iOS. Все як треба — зручно, швидко, гарно, можна завантажувати фотки для роботи з ними. Реліз на Android планується найближчим часом. 

🎨З’явився аналог арени чатботів (де користувачі всліпу обирають найкращу, на їхню думку, відповідь різних LLM з двох обраних), але для моделей, які генерують зображення. Топ-3 станом на сьогодні — Modjourney, Stable Diffusion, Dalle 3

🧠OpenAI розгортає функцію пам’яті ChatGPT для ще більшої кількості безплатних та платних користувачів. Завдяки цьому чатбот зможе переносити отримані знання з однієї розмови в іншу — ви буквально можете попросити GPT запам’ятати або «забути» якийсь факт, які можна переглянути у вкладці персоналізації. 

📝Також OpenAI уклала угоду з Financial Times — відтепер ChatGPT зможе включати посилання на статті FT у своїх відповідях. Паралельно на OpenAI та Microsoft подали до суду ще кілька медіа, що належать Alden Capital Group. Звинувачення такі самі, що й у випадку з NYT — використання матеріалів видань без їхньої згоди для тренування GPT. Ще одна нова угода OpenAI — з Moderna: біотехнологічний гігант інтегрує ChatGPT у всі свої бізнес-процеси для пришвидшення розроблення ліків. У компанії вже створили понад 750 персональних GPTs плюс відбувається приблизно 120 розмов з ChatGPT на одного користувача за тиждень. 

🧬Стартап Profluent розробив OpenCRISPR-1. Він здатен редагувати геном людини та працює на базі ШІ. Потенційно це важливий майлстоун, оскільки редагування генів має величезний потенціал для медичної галузі. Вчені сподіваються, що штучний інтелект виведе цю технологію на новий рівень. OpenCRISPR-1 має відкритий код, щоб інші дослідники могли тестувати технологію.

Що ще нового у світі ШІ

Китай випереджає США за одним із ключових показників у сфері ШІ — таланти

США поки що є лідерами у розробленні чатботів, якими користуються люди з усього світу. Водночас Китай працює на перспективу і, як виявилось, вже обганяє Америку за кількістю топових ШІ-дослідників. Згідно з новим дослідженням аналітичного центру MacroPolo, майже половина провідних світових фахівців із штучного інтелекту — випускники китайських вишів (ще три роки тому цей показник становив приблизно 30%). Для порівняння, лише 18% талантів приходять з американських університетів, і за цей час ця частка майже не змінилася.

Такий дисбаланс накопичується майже 10 років. Протягом більшої частини 2010-х багато китайських спеціалістів їхали до США, щоб здобути докторський ступінь і залишитися там працювати. Зараз ця тенденція змінюється: дедалі більше китайців воліють залишатися на батьківщині. 

Найближчі кілька років можуть стати визначальними, адже Китай і США змагаються за першість у сфері штучного інтелекту. Тому ШІ-дослідники поступово стають однією з найважливіших геополітичних груп у світі. Попри те що AI-бум очолюють американські компанії на кшталт OpenAI та Google, Китай активно вкладається у ШІ-освіту: від 2018 року в країні з’явилися понад 2000 нових програм, пов’язаних із штучним інтелектом, що дає Китаю значну фору в перспективі. 

Хоча США є країною-лідеркою в ШІ, до успіху Америки долучилися дослідники з Китаю (38%) у порівнянні з 37% дослідниками-американцями. Ще три роки тому це співвідношення було 27% проти 31% на користь США. І якщо раніше американські урядовці не надто переймалися цим, тепер ситуація змінюється. 

Нещодавно китайського інженера Google звинуватили у спробі передати чутливі ШІ-розробки пекінській компанії. Подібні кейси ставлять політиків перед складним вибором: з одного боку, треба протидіяти китайським шпигунам, з іншого — не відлякувати талановитих інженерів з Китаю. 

Поки що більшість китайців, які здобувають докторський ступінь у США, залишаються в країні. Але лідерство США починає слабшати: натепер у країні працюють майже 42% найкращих світових талантів порівняно з 59% три роки тому. 

Що буде далі у цих перегонах за ШІ-спеціалістів — велике питання. Але одне зрозуміло точно: від того, хто переможе, багато в чому залежатиме, хто домінуватиме у наступній технологічній революції.

Що робити з проблемою Lost in the middle? 

Ви, напевно, знаєте про одну з головних проблем сучасних LLM, які працюють з великою кількістю вхідних даних: вони чудово запам’ятовують початок і кінець довгого тексту, але часто гублять середину. Така забудькуватість робить LLM ненадійними за обробленні великих обсягів інформації, хоча вони здатні працювати з довгим текстом.

Команда дослідників із Microsoft, Пекінського університету та Університету Сіань Цзяотун вважає, що причина криється у методах навчання LLM. Під час навчання на великих масивах даних моделі вчаться передбачати наступне слово на основі попередніх. Вже під час файнт’юнінгу моделей дослідники зазвичай розміщують інструкції на початку промпту — це формує у LLM упередження, що важлива інформація завжди розташована на початку або наприкінці тексту. 

Щоб допомогти моделі не втрачати весь контекст, вчені пропонують новий підхід — IN2 (INformation-INtensive training, інформаційно-інтенсивне навчання). Ідея — показати моделі, що важливою є абсолютно вся інформація з промпту. 

Для цього використовують синтетичний датасет запитань-відповідей. Замість цілісних текстів, дослідники нарізають довгі документи (4-32 тис. токенів) на короткі сегменти (по 128 токенів) і довільно перемішують їх. Потім вони генерують запитання, відповіді на які потребують інформації саме з цих сегментів, причому незалежно від їхньої позиції у контексті. 

Запитання бувають двох типів: ті, що потребують точної інформації лише з одного сегмента, та ті, що потребують поєднання та логічного виведення інформації з кількох сегментів одночасно. Ці запитання і відповіді на них генеруються за допомогою потужної мовної моделі (у дослідженні — GPT-4 Turbo). А різноманітність запитань та довільне розкидання сегментів по контексту привчають модель уважно вивчати весь текст незалежно від його розташування. 

Ефективність методу IN2 дослідники перевірили на моделі Mistral-7B, зробивши на її базі модель FILM-7B (ловіть лінк на GitHub), яку протестували на трьох завданнях, що потребують вилучення інформації з довгих контекстів — аналіз документа, коду, структуризація даних. Виявилось, що FILM-7B має значно кращу «пам’ять» на довгих контекстах порівняно з оригінальною Mistral-7B. Ба більше, попри менший розмір (7 млрд проти 175 млрд) FILM-7B показала результати на рівні або навіть краще, ніж GPT-4 у деяких long-context завданнях. Водночас FILM-7B зберегла високу якість і за роботи з короткими текстами. 

Цікаво, що популярний тест «Голка у копиці сіна» (Needle-in-the-Haystack) виявився не надто показовим для оцінювання справжніх можливостей моделей працювати з довгим контекстом, адже він спирається на звичні для LLM документоподібні тексти і прямий пошук інформації. Натомість вони пропонують свій підхід VAL Probing, який охоплює різні стилі контексту (документи, код, структуровані дані), завдяки чому нібито дає більш об’єктивні результати. 

Дослідники стверджують, що IN2 не є чарівною пігулкою від «амнезії» LLM. Проте їхній підхід доводить: щоб навчити AI по-справжньому розуміти людей, інколи варто дати йому завдання, з якими стикаємось і самі. Наприклад, знайти потрібну інформацію в довгому, складному, «перемішаному» тексті. Щось знайоме, чи не так?

Традиційний мем на добивочку :)  Традиційний мем на добивочку :) 
Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

ОpenAI придбав Rockset, щоб покращити інфраструктуру для своїх корпоративних продуктів

Вікторія Рудзінська 1 годину тому

Як створити YouTube-оголошення з високою конверсією у 2024 році?

В'ячеслав Юренко 20 годин тому

Взаємодія між ключовими стейкхолдерами – запорука ефективної боротьби з піратством та контрафактом

Владислав Миронович 21 годину тому

Як просувати бренд за допомогою текстового контенту

Оксана Павлюк 21 червня 2024 15:00

DevOps-курси за донати війську: як працює ініціатива «Навчання за донат»

Аліна Баля 21 червня 2024 12:00