Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: як ШІ розміновує Україну, ChatGPT в iPhone, усі деталі GPT-4о

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
22 травня 2024 17 хвилин читання

Це AI HOUSE із добіркою найцікавішого, що відбувалося у світі штучного інтелекту за останні два тижні. Починаємо вже традиційно з наших коротких апдейтів.

  • 1
    У форматі AI HOUSE Podcast нам хочеться спілкуватися з мемберами ШІ-ком’юніті зі всього світу та ділитися з вами їхніми знаннями, тож вітайте наш перший епізод, записаний в онлайн-форматі. 🔥Онлайн-гостем став Олександр Гончар, Director of AI Engineering & Partner у Neurons Lab. Разом із незмінним ведучим Романом Кислим вони поспілкувалися про ШІ для бізнесу, ML-консалтинг та перспективи AGI. Як ML-інженеру стати підприємцем та як розвиток AGI вплине на людей — дивіться та слухайте у новому епізоді на YouTube-каналі або на зручних для вас подкаст-платформах. 
  • 2
    Ділимося крутою можливістю від наших друзів SET University. Щоб зробити освіту доступною, SET пропонує гранти, що частково або повністю покривають вартість навчання на магістратурі. 

    Нагадаємо, що магістратура у SET — це міжнародний нетворкінг зі спеціалістами світового рівня, шанс навчатись у найкращих, власний стартап замість дипломної роботи і не тільки. Цьогоріч набір на три програми: кібербезпека, інноваційна інженерія, штучний інтелект та хмарні системи. 

    І найголовніше — за промокодом AIHouse10 ви можете отримати 10% знижки на оплату усіх магістерських програм. Хутчіш дізнавайтеся більше про стипендії та навчайтеся у кращих.

А тепер до ШІ-новин! Сьогодні розбиратися з найголовнішими з них нам допоможе Дмитро Кузьменко — Data Science Engineering Manager у LITSLINK, старший викладач факультету інформатики Національного університету «Києво-Могилянська академія».

Чи давно ви говорили зі своїм ноутбуком? 

OpenAI представила GPT-4o — нову флагманську модель, яка вже доступна для всіх користувачів безплатно. Коротко про головні фішки:

  • Літера «o» у назві якраз і означає «omni» — всебічність. Це «нативно-мультимодальна» модель, яка здатна розуміти команди голосом, текстом, зображеннями та відео, та знає, яку модальність потрібно використовувати для відповіді. GPT-4o значно краще працює з візуальною інформацією та здатна аналізувати графіки, діаграми, скриншоти тощо.
  • Модель здатна реагувати на аудіозапит лише за 232 мілісекунди, що наближається до швидкості реакції людини під час розмови. Під час демонстрації співробітники OpenAI спілкувалися з моделлю, яка розуміла тон людини, жартувала і взагалі відповідала доволі природно. 
  • GPT-4o вдвічі швидша та дешевша за GPT-4 Turbo + значно краще працює з неангломовними текстами, ніж усі попередні моделі (українська також офіційно підтримується). Оновили токенізатор, завдяки чому модель може запам’ятовувати більше інформації. 
  • Контекстне вікно — 128K токенів (в інтернеті вже жаліються, що цього мало, розбалувані). 
  • Удвічі швидший та дешевший API для розробників — крутий буст для компаній, що використовують OpenAI API для оптимізації роботи. 
  • З’являється апка для Mac — можна буде просити ChatGPT аналізувати, що відбувається на вашому екрані та, наприклад, виправити код чи відповісти на мейл. Застосунок для Windows вийде «пізніше цього року». 
Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Дійсно натяки Сема Альтмана подивитись “Her” (2013), загадковий a-good-gpt2-chatbot на chatbot arena, що обходить попередників більш ніж на 50 ELO points, вражаюче демо від OpenAI – апофеозом цього стала GPT-4o, повноцінна end-to-end мультимодальна модель. 

За словами Альтмана, OAI хочуть передати інструменти для розробки топових рішень саме в руки людей, а не розробляти їх самостійно. Отже, вони зробили GPT-4o повністю безоплатною для всіх користувачів (звісно є обмеження порівняно з підпискою, але вони несуттєві), і тепер ходять чи то жарти, чи то наміри більшості моїх знайомих дропнути підписку :) Вони одразу анонсували повноцінний доступ до API для розробки, поки що їх дії повністю відповідають словам. 

З погляду технічних характеристик, OpenAI зробили великий крок у здешевленні, пришвидшенні, скейлінгу загалом. Підтримка неангломовних текстів — це супер важлива фіча, на мою думку, і я з нетерпінням чекаю на враження від колег, які працюють з українською. 128к токенів — досить адекватна цифра, я думаю що її збільшення не дозволило б отримати такого приросту у швидкодії системи. 

Десктопні застосунки — це, певно, єдине, чого не вистачало OpenAI, тому я радий цим анонсам. Я б охоче поспілкувався зі своїм ноутбуком (чи десктопом!), зі зручним UI, можливістю не робити зайві скриншоти й вставки. 

Мої особисті враження від користування so far — модель дійсно працює набагато швидше і якісніше. Було багато flashy дописів в Twitter/LinkedIn про круту генерацію графіків з табличних даних, консистентних зображень тощо, але від колег я отримав різні відгуки, тому недоліки точно є, але наскільки серйозні, зможемо остаточно сформувати думку лише згодом.

ChatGPT з’явиться в iPhone? 

Apple майже уклала угоду з OpenAI щодо використання ChatGPT у наступній версії операційної системи для iPhone — iOS 18. Переговори тривають приблизно з лютого. Паралельно компанія також спілкується з Google щодо інтеграції Gemini — угоди ще немає, але перемовини досі тривають, повідомляє Bloomberg

Інтеграція чатбота стане лише частиною масштабного впровадження ШІ-функцій у пристрої Apple. Компанія планує гучно заявити про себе вже наступного місяця під час щорічної конференції для розробників WWDC, але поки немає жодних підтверджень, що ж саме там мають представити. У будь-якому разі, враховуючи масштабне оновлення від OpenAI, безоплатний доступ до GPT-4o та майбутню інтеграцію чатбота з пристроями Apple, можна лише уявити, скільки нових функцій можна розбудувати на такій потужній базі. 

Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Нарешті розумна Siri, довго я цього чекав! Я маю сумнів, що у випадку позитивних домовленостей з двома компаніями, Apple інтегрує як ChatGPT, так і Gemini. Але побачимо, може бути все що завгодно. Припускаю, що пріоритетнішою інтеграцією є все ж OpenAI, бо Gemini — це Google-інфраструктура, вона ідеологічно не співіснує з тим же Safari та яблучними застосунками. 

Apple відверто відстали в продуктово-прикладному застосуванні ШІ у своїй екосистемі, але внаслідок довготривалого, найбільшого серед конкурентів, market cap, вони можуть спокійно дозволити собі «купити» ці застосунки та ще більше покращити одну з найкомфортніших лінійок девайсів. Причому вони можуть і, я думаю, вже перенаправили зусилля своїх R&D-лаб на розробки інших АІ-related технологій, моделей та підходів, про які ми дізнаємось згодом. Загалом суперновини, класне рішення, успіхів Тіму Куку та Apple!

Медична революція

Google DeepMind презентувала AlphaFold 3, вдосконалену версію інструменту для прогнозування структур білків, яка може прогнозувати структури ДНК, що несуть генетичну інформацію, РНК, що є посередником між ДНК і білками, та інших важливих біологічних елементів за допомогою ШІ. Потенційне застосування цієї технології дуже широке: від розроблення ліків (алгоритм вміє моделювати, як цільові білки в організмі будуть взаємодіяти з потенційними молекулами ліків) до створення біовідновлюваних матеріалів і виведення більш стійких сільськогосподарських культур. 

Водночас, на відміну від попередньої версії, код AlphaFold 3 не буде повністю відкритим. Натомість компанія випустила публічний інтерфейс для моделі AlphaFold Server, що накладає обмеження на те, з якими молекулами можна експериментувати, і може використовуватися лише в некомерційних цілях. Крім того, точність прогнозів моделі варіюється від 40% до 80% залежно від типу взаємодії, тож в багатьох випадках AlphaFold 3 може бути лише відправною точкою для подальших експериментів. Пейпер — тут

Також команда випустила ШІ-модель Med-Gemini, що перевершує лікарів за точністю діагностики, досягаючи понад 91% на медичних тестах. Med-Gemini перевершує моделі GPT-4 на 10 з 14 медичних тестів, що робить її цінним інструментом для полегшення роботи лікарів та підвищення якості медичного обслуговування. Пейпер тут

Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Мій колега у команді має повноцінний бекграунд у медицині — з освітою і досвідом. У нас є традиція — коли виходить якась нова medicine- чи biology-related модель, хто перший її знаходить, одразу ділиться з іншим, і потім ми обговорюємо рішення. Цього разу AlphaFold 3 ми знайшли одночасно і плідно подискутували :) 

Надзвичайно важливий для розвитку людства, комплексний, і, можливо, under-represented домен. Синтез нових білків, створення ліків, дослідження хвороб — все це вийде на новий рівень завдяки AlphaFold 3. Сама модель, по суті, покращення Evoformer backbone трансформерного модуля з AlphaFold 2 і постобробка за допомогою дифузійних моделей. 

Принцип дуже схожий на генерацію зображень за допомогою дифузії: – спочатку ініціалізується хмара атомів (аналог шуму в картинках) і за Х кроків синтезується повноцінна молекулярна структура (знешумлення і фінальне зображення). Метод вже створює нові молекулярні ланцюги, яких не було досі, та вже є частково оупенсорсним – чудове рішення, краєм ока завжди слідкую за цим напрямом.

Короткі новини

🌀Ще кілька оновлень від OpenAI: 

  • Співзасновник компанії Ілля Суцкевер покидає OpenAI. Його позицію головного науковця займатиме Якуб Пахоцький, який керував розробкою GPT-4 і OpenAI Five. Сам Суцкевер тепер займатиметься неназваним «особистим проєктом», про який він розкаже пізніше. Також OpenAI покинув Ян Лейке, який дуже близько працював із Суцкевером. 
  • OpenAI запартнерилась зі Stack Overflow для покращення продуктивності своїх ШІ-моделей у програмуванні. Використовуючи OverflowAPI, ChatGPT зможе отримувати доступ до великої бази технічних питань і відповідей, накопичених за 15 років.
  • Також OpenAI представила засіб для розпізнавання зображень, згенерованих моделлю DALL-E 3. Точність роботи — 95%, але вона знижується при зміні тону чи додаванні шуму. У компанії обіцяють, що з часом інструмент працюватиме краще, адже зараз він знаходиться на ранній стадії. 
  • Крім того, в компанії продовжують працювати над поліпшенням бази даних для тренування моделей. Так OpenAI ліцензувала архів Financial Times, отримавши доступ до всіх статей видання. Це вже п’ята угода з великими медіавидавцями — до цього були Le Monde, Prisa Media, Axel Springer та Associated Press. Крім того, OAI підписала партнерство з Reddit, і тепер ChatGPT буде навчатися на вмісті соцмережі. Сильний хід.
  • За кілька днів до релізу GPT-4o OpenAI представила фреймворк, який описує підхід компанії до формування поведінки своїх ШІ-моделей. Зараз OpenAI збирає відгуки користувачів, щоб розуміти, чого люди очікують від ChatGPT у майбутньому. 
  • Користувачі платної підписки тепер можуть додавати файли прямо з Google Drive і Microsoft OneDrive та взаємодіяти з ними безпосередньо всередині ChatGPT.

💡Цілу пачку оновлень також викотили у Google під час конференції Google I/O. Ось основні з них: 

  • Нова модель Gemini 1.5 Flash така ж потужна, як Gemini 1.5 Pro, але оптимізована для «вузьких, високочастотних завдань з низькою затримкою». Покращення отримала й Gemini 1.5 — тепер вона краще перекладає, міркує, пише код. А Pro-версія отримала х2 до свого контекстного вікна — тепер це 2 млн токенів. 
  • Сама Gemini Pro тепер інтегрується в Docs, Sheets, Slides, Drive та Gmail. ШІ тепер матиме доступ до всіх даних, що є на вашому диску, що дозволить покращити взаємодію між інструментами — наприклад, можна буде попросити відправити по імейлу документ, який ви зараз переглядаєте. 
  • Project Astra від Google — це ШІ-асистент, очима якого є ваша камера, і який може взаємодіяти з вами різними способами — підказувати, що ви бачите, де лежать ваші речі, розшифровувати код чи рукописний текст, на який показує камера тощо. 
  • Veo — це відповідь Google на Sora від OpenAI, нова ШІ-модель, яка може створювати високоякісні відео на базі текстових, графічних та відеопідказок. Google вже пропонує Veo деяким творцям для використання на YouTube, а також пітчить її в Голлівуді. 
  • Gems —  інструмент для створення персональних чат-ботів на базі Gemini. Подібно до GPT від OpenAI, Gems дозволяє користувачам давати інструкції Gemini, щоб налаштувати, як він реагуватиме і на чому спеціалізуватиметься.
  • Модель Gemini Nano буде інтегрована в смартфони Pixel пізніше цього року.

🔧 Компанія Microsoft розробляє власну ШІ-модель MAI-1, здатну конкурувати з найсучаснішими моделями від Google, Anthropic та OpenAI. Проєкт очолює Мустафа Сулейман, колишній лідер Google AI. А попередній показ моделі може відбутися на конференції Build наступного тижня.

MAI-1 матиме приблизно 500 млрд параметрів — це набагато більше за попередні моделі Microsoft, але менше за GPT-4 від OpenAI. Зараз Microsoft хоче розвивати як невеликі, доступні мовні моделі (про сімейство крутих маленьких ШІ-моделей Phi-3 ми розповідали у минулому дайджесті), так і LLMs, які мають кинути виклик іншим техногігантам.

📰 Ілон Маск хоче використовувати Grok, щоб сумаризувати не тільки новини, але й коментарі користувачів до них. Можливо, це дійсно краще, ніж перечитувати десятки реплаїв, але чи не вдарить це по надійності інформації, яку отримуватимуть люди? 

💻 GitHub представив Copilot Workspace — генеративне середовище розробки на базі GPT-4, що охоплює цілі проєкти від планування до pull request. Користувачі надають системі відомий баг, запит функції або код, а Copilot Workspace визначає поточний стан коду, пропонує цілі та планує кроки для їх досягнення. 

🤖 Nvidia представила DrEureka — ШІ-систему, що використовує LLM-агентів для автоматизації процесу навчання роботів. DrEureka пише код для навчання у симуляціях, а потім забезпечує успішне перенесення отриманих навичок на фізичних роботів. 

🎧 Після інтеграції ШІ в окуляри Ray-ban в Meta працюють над проєктом Camerabuds — це навушники з камерами та ШІ, що зможе розпізнавати об’єкти в оточенні (потенційно дуже корисно для сліпих людей) та перекладати мову. Але наразі проєкт на ранній стадії, а перші концепти Цукербергу не зайшли. Крім того, є ризик, що довге волосся може закривати камери на навушниках + навушники можуть перегріватись через необхідність розміщення камер і батарей у крихітних пристроях.

⛔️ TikTok автоматично маркуватиме AI-generated контент, створений на інших платформах, використовуючи технологію Content Credentials. Ця технологія додає спеціальні метадані, дозволяючи соцмережам миттєво розпізнавати ШІ-контент. Найближчими місяцями Content Credentials буде запроваджено і всередині TikTok, щоб маркувати ШІ-контент, згенерований на платформі. 

📝 Дослідники виявили, що робота LLM стає кращою завдяки контексту, який ми даємо у промптах, і що більше релевантних прикладів отримує модель, то краще вона працює. На їхню думку, зі збільшенням контекстного вікна метод, який вони назвали In-Context Learning, може бути альтернативою дорогому та важкому процесу файнтьюнінгу моделей (пейпер). 

🧠 Американсько-китайська команда вчених створила алгоритм Deja Vu, що здатен передбачати, які саме частини моделі можуть відповісти на запит користувача. Це дозволяє генерувати відповідь швидше та дешевше, дозволяючи економити обчислювальні ресурси LLM, водночас не знижуючи якість її роботи (GitHub)

👥 Стартап DatologyAI, заснований колишніми дослідниками з DeepMind, Meta та Twitter, підняв $46 млн у Серії А, лише через три місяці після seed-раунду на понад $11 млн. Компанія використовує ШІ-алгоритми для роботи з датасетами, щоб зменшити людський фактор при відборі даних, що часто негативно позначається на якості моделей. 

🪖 Український виробник Vyriy drone розпочав серійне виробництво ударних  FPV-дронів із системою машинного зору, яка дозволяє їм автоматично захоплювати цілі та влучати в них без втручання пілота, а також мінімізувати вплив російського РЕБу на безпілотники.

📶 Американська Anduril Industries анонсувала Pulsar — систему РЕБ, що використовує ШІ. Системи РЕБ дуже важливі на сучасному полі бою через велику кількість дронів. Pulsar дозволяє аналізувати електромагнітний спектр у реальному часі та швидко «застосовувати ефективні контрзаходи» проти ворожих цілей. Конструкція виробу дозволяє модифікувати його для застосування як на наземному транспорті, так і на літальних апаратах. 

Цікаве з мережі

  • Як дрони та ШІ допомагають розміновувати Україну

Сьогодні Україна є найбільш забрудненою вибухонебезпечними предметами країною у світі — приблизно третина території нашої країни може містити міни та нерозірвані боєприпаси. Розмінування таких територій традиційними методами може зайняти сотні років. Стартап Safe Pro AI пропонує пришвидшити цей процес за допомогою дронів для збору візуальних даних та спеціально навчених ШІ-моделей для їх аналізу.

Ідея використовувати безпілотники для розмінування виникла у співзасновника проєкту Джаспера Баура ще під час навчання в університеті. У 2019 році разом з колегами він працював над створенням моделі, здатної розпізнавати російські протипіхотні міни PFM-1 «Лепесток», які дуже складно виявити за допомогою металошукачів. Цей проєкт дав обнадійливі результати та надихнув Баура та його партнера Габріеля Штайнберга заснувати власну компанію.

В основі розробленої ними системи SpotlightAI лежить модель комп'ютерного зору, навчена розпізнавати понад 150 типів вибухонебезпечних предметів. Маючи достатньо обчислювальних ресурсів, система аналізує одне зображення приблизно за пів секунди, тоді як людині-спеціалісту на це зазвичай потрібно близько трьох хвилин.

Щоб натренувати свій ШІ, засновники використовували дані, зібрані на спеціальному полігоні в Оклахомі, де було представлено понад 50 видів боєприпасів — від протипіхотних і протитанкових мін до гранат і саморобних вибухових пристроїв. А під час першого серйозного тесту на військовому полігоні в Угорщині, модель змогла виявити 20 з 23 вибухонебезпечних предметів, розкиданих на території, за менш ніж годину роботи. 

Процес роботи SpotlightAI виглядає так: дрони облітають великі ділянки землі та збирають візуальні дані, які потім обробляються ШІ-моделлю. Система створює детальну інтерактивну карту, де позначає координати всіх потенційно небезпечних об'єктів. Хоча повністю замінити саперів технологія наразі не може, вона дозволяє набагато швидше провести початкове обстеження території та визначити, які ділянки потребують першочергової уваги.

Інженери Safe Pro AI створили додатковий алгоритм, що перетворює аерофотознімки на теплову карту. Вона показує, з якою ймовірністю модель машинного навчання може виявити вибухонебезпечні предмети в різних точках місцевості з урахуванням рельєфу та рослинності. Наприклад, на пласкій ділянці з низькою травою шанси на успішне розпізнавання вищі, ніж у густих заростях кущів та дерев.

Зараз розробники продовжують вдосконалювати свою модель, зокрема працюють над підвищенням її ефективності для пошуку замаскованих рослинністю чи закопаних у землю боєприпасів. Для цього проводяться експерименти з різними типами сенсорів — тепловізорами, лідарами, магнітометрами тощо.

У 2023 році команда Safe Pro AI випробувала свою систему в Україні. Баур розповів, як вони мали за 72 години просканувати територію площею 25 га, засіяну макетами мін, і позначити їх на мапі. Результати перевершили всі очікування, що відкрило стартапу двері до співпраці з гуманітарними організаціями, що займаються розмінуванням.

Зараз SpotlightAI вже використовується кількома організаціями в Україні, допомагаючи очищувати дороги, поля та населені пункти від російських «подарунків». Крім того, стартап співпрацює з Державною спеціальною службою транспорту України, підрозділом української армії, що відповідає за утримання доріг і мостів у робочому стані.

Завдяки партнерству з Amazon Web Services, система може масштабуватись та обробляти величезні обсяги даних, забезпечуючи швидкі та точні результати. Один оператор дрона за день може опрацювати до 30 гектарів території, зібравши до 20 тис. зображень, і хмарні технології дозволяють оперативно їх проаналізувати, щоб задовольнити потреби саперів в Україні.

У планах засновників — адаптувати технологію для використання в інших гарячих точках та постраждалих від війн регіонах, як-от Ангола, Ірак, Лаос. Вони сподіваються зробити процес розмінування максимально безпечним і швидким. Кінцева мрія стартаперів — зробити свої послуги непотрібними, бо на планеті більше не залишиться мін. 

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

Microsoft інвестує 6,69 млрд євро у нові центри оброблення даних в Арагоні, Іспанія

Вікторія Рудзінська 12 годин тому

AI несеться: боротьба з аудіодипфейками, багато оновлень від OpenAI та Anthropic

Владислав Миронович 14 червня 2024 18:30

Clearview AI: незвичайне врегулювання позову через розподіл частки в компанії

Вікторія Рудзінська 14 червня 2024 17:49

PRO наголоси, академічно правильну українську, приказки та сракознавство

Наталя Місюк 14 червня 2024 17:45

Будуємо затишок: науковий погляд та чекліст комфортного дому

Володимир Мельнічук 14 червня 2024 16:30