Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Головні події світу ШІ у 2022 році

Олександр Тартачний
Олександр Тартачний журналіст
27 грудня 2022 12 хвилин читання

Цього року світ з особливим захопленням генерував арти за текстовими запитами, спілкувався з розумними чатботами та мав справу із штучним інтелектом, навіть не підозрюючи про це. SPEKA розповідає, чим відзначився 2022 рік у технологіях машинного навчання та галузі штучного інтелекту

OpenAI випустила розумного чатбота ChatGPT

30 листопада OpenAI випустила ChatGPT, прототип чатбота із штучним інтелектом. Він заснований на моделі мови сімейства GPT-3.5. Чатбот навчений на тексті та коді, а також проходив навчання з підкріпленням за допомогою зворотного зв'язку від людини. Після того як компанія виклала чатбот у попередній демодоступ, розмови з ChatGPT завірусились у мережі. Він став відомим через деталізовані та чітко сформовані відповіді, хоча іноді й неправдиві.

SPEKA теж протестувала ChatGPT, і він непогано відповідає на базові запитання. Може кодувати, давати поради та без проблем генерує креативний контент — текст пісні у певному стилі, жарт чи оповідання. 

Оповідання у стилі Артура Конан Дойля про загублену шкарпетку створене ChatGPT

Дехто пророкує, що ChatGPT вб'є Google, оскільки може стати персоналізованим особистим помічником, який знає не менше ніж пошуковик. Однак поки що алгоритм не розуміє контексту і може розумними словами писати нісенітницю. Наприклад, про користь поїдання битого скла. 

Попри те що ChatGPT чудово генерує креативний контент, йому ще далеко до інтелекту у класичному розумінні. ChatGPT не має відповідей на запитання, які змушували б його міркувати або висловити ставлення до певних подій чи явищ. Він не може прогнозувати, що трохи суперечить уявленню про розумний застосунок. 

Такі системи можна використовувати насамперед для summary-контенту і проведення швидких market research, що змусить бізнес зацікавитися цими технологіями ще більше. 

Генеративний контент та дифузійні моделі

Цього року були релізи багатьох моделей text2image (алгоритмів, які дозволяють створювати зображення за текстовим запитом). Про те, що нового у версії Midjourney 4.0, ми писали у листопаді. А ще публікували історію про те, як дизайнер компанії з розроблення програмного забезпечення Deephaven втомився шукати стокові фото, тому вирішив замінити усі обкладинки картинками, згенерованими нейромережею DALL-E 2. Як виявилося, ці сервіси можуть замінити фотобанки, але не витіснити з ринку художників та дизайнерів. 

І Midjourney 4.0, і DALL-E 2, як і більшість інших сучасних сервісів text2image, суттєво покращили якість генерування зображень у 2022 році. Усе через нову архітектуру — дифузійні моделі. 

Приклади деяких зображень згенерованих Midjourney 4.0 та DALL-E 2

Перші фази роботи цього алгоритму доволі схожі на типове машинне навчання: дослідники передають у комп'ютерну систему сотні мільйонів зображень, які зазвичай беруть з інтернету. Кожне зображення поєднується із супровідним описом, тому комп'ютер навчається визначати зв'язки між зображеннями та словами.

Коли ви вводите текстовий запит, наприклад, слово «такса», модель ШІ починає пов'язувати слова із зображеннями. AI створює внутрішню мапу концепцій, перетворюючи зображення та тексти на числа та призначаючи деяким асоціаціям вищі ймовірності (наприклад, коло зображення собаки часто буде повідець або люди). 

Потім дослідники додають «шум» — візуальний безлад до набору зображень. Візуальний шум — це шаблон із випадкових точок або пікселів, які накладають, затемнюючи вихідне зображення. Дослідники додають дедалі більше шуму, щоб навчити модель розпізнавати, що це базове зображення досі містить таксу.

Приклад додавання цифрового шуму до зображення під час навчання моделі. Скриншот: The Washingron Times Приклад додавання цифрового шуму до зображення під час навчання моделі. Скриншот: The Washingron Times

Підписуйтеся на наші соцмережі

Потім штучний інтелект вчиться прибирати шум, щоб затемнене зображення стало чітким. Згодом штучний інтелект настільки добре приглушає зображення, що може генерувати детальне зображення з чистого шуму. 

AlphaCode зміг програмувати як middle-розробник? 

У лютому алгоритм Deepmind AlphaCode нібито вийшов на рівень людських здібностей. Систему протестували на Codeforces — популярному змаганні з програмування серед людей. AlphaCode отримав середній рейтинг 54,3% з 10 спроб. Як заявляють розробники системи, це відповідає розробнику рівня middle.

Учасникам дають 5-10 описів завдань, і вони мають надіслати якомога більше рішень протягом приблизно трьох годин. Змагальне програмування потребує надто специфічного набору навичок, логічного мислення, розуміння принципів алгоритмів тощо.

Схема роботи AlphaCode. Модель навчали на наборі у 700 Гб відкритого коду із GitHub Схема роботи AlphaCode. Модель навчали на наборі у 700 Гб відкритого коду із GitHub

AlphaCode зазвичай краще програмує на Python (синтаксис C++ складніший), і він генерує таку саму кількість мертвого коду (код, який написаний, але не надає рішення), як люди. AlphaCode досяг нового рівня. Це єдина система генератора коду, яка досягає конкурентного рівня у змаганнях з програмування, але твердження, яке зробив Deepmind, про відповідність розробнику рівня middle, радше безпідставне. 

Річ у тім, що у різних спробах результат, який набирав AlphaCode, міг відрізнятися на 30%. Наприклад, у конкурсі №1618 AlphaCode набрав 62,3%, 32,1% і 62,3%. Зміна оцінки на 30% показує, що AlphaCode може бути недостатньо надійним. Крім того, завдання сортують за складністю, і AlphaCode майже завжди розв'язував найлегші у кожному блоці.

У таких змаганнях алгоритм має перевагу, оскільки, на відміну від людей, не помиляється через тиск часу, але AphaCode — це так званий вузький ШІ, тобто він працює лише з одним типом завдань. Натомість людина має й інші здібності, як-от «планування та визначення стратегії». У AlphaCode не має друзів. Якщо у людини-програміста виникла проблема, вона може звернутися по допомогу до товариша по команді. Це найкращий інструмент у наборі навичок людини, і AlphaCode не може з ним конкурувати.

Розробки Google-2022: синтез відео за текстом і редактор художнього тексту

Google має навіть не одну, а дві моделі, які можуть генерувати відео з підказок. Phenaki може створювати відео тривалістю до 2 хвилин за вашим запитом. Його головний недолік — погана якість зображення. Натомість модель Imagen Video створює короткі кліпи високої роздільної здатності. Google об'єднав обидві моделі в одну, щоб використати їхні переваги. Комбінована модель може створювати довгі послідовні відео високої якості. 

Також у корпорації є розробка Wordcraft, яка базується на LaMDA (Language Model for Dialogue Applications). Її завдання — імітувати мовні патерни, вивчаючи лексику в інтернеті.

Wordcraft — інструмент для створення художньої літератури зі штучним інтелектом. Він призначений для творчого письма, оповідання історій та експериментальної художньої літератури. На жаль, Wordcraft, як і попередні інструменти Google, не є загальнодоступним. Google не надає доступ до цих сервісів. 

 Користувачі можуть переписувати речення та запропонувати ШІ змінити їх, наприклад, «зробити це смішнішим». Вони також можуть попросити його продовжити ідеї або вдосконалити наявні. Окрім того, Google додав функцію, яку вони називають підказкою довільної форми. Враховуючи контекст, користувач може попросити Wordcraft згенерувати підказку (наприклад, «скажи мені, що відчув старий від квітів», якщо у вашому оповіданні вже згаданий цей герой). 

Щоб перевірити Wordcraft у реальному світі, Google створив Wordcraft Writers Workshop. Вони запросили 13 професійних творчих авторів: сценаристів, поетів, педагогів тощо, щоб оцінити інструмент. Разом вони створили оповідання. Наскільки мені відомо, це перша робота у такому форматі.

Провал року: науковий алгоритм Galactica 

У листопаді Meta анонсувала нову велику мовну модель (LLM) для науки і назвала її Galactica — реверанс до Енциклопедії Galactica Айзека Азімова. На вебсайті сказано, що це «модель, яка може зберігати, комбінувати та міркувати про наукові знання».

Мета алгоритму, без сумніву, благородна: компанія задумала Galactica, щоб «організувати науку», оскільки людство знає та зберігає дедалі більшу кількість знань про світ. Проте загальний відсоток, який ми можемо поглинути, швидко зменшується.

Galactica — це сімейство мовних моделей, навчених на 60+ млн високоякісних наукових документів (статей, підручників, енциклопедій). Meta заявляла, що Galactica може «узагальнювати академічну літературу, розв'язувати математичні задачі, генерувати статті Wiki, писати науковий код, анотувати молекули та білки тощо».

І це начебто чудово, але модель розкритикували вчені. Наприклад, Саймон Дж. Грінхілл, професор Школи біологічних наук Оклендського університету, сказав, що Galactica стала чудовою послугою для паперових фабрик, шахраїв-плагіаторів і студентів-халявників. 

«Що мене так непокоїть у Galactica від Facebook, то це те, що вона прикидається порталом знань. Насправді це просто генератор випадкової фігні», — заявив Карл Т. Бергстром, професор біології Університету Вашингтона у Сіетлі.

Схоже, що вчені мали привід для гніву.

Galactica чудово вміє генерувати факти, які виглядають як наукові. Коли нейромережа рецензує якісь дані, вона також може змішати їх із такими, які ніколи не існували. Наприклад, за запитом Galactica придумала вікі-статтю про «компліментарність Леннона-Оно», яка нібито пояснює вигаданий математичний ефект, названий на честь Джона Леннона та Йоко Оно.
Wiki-стаття про «компліментарність Леннона-Оно», створена Galactica Wiki-стаття про «компліментарність Леннона-Оно», створена Galactica

Очевидна брехня про те, що Galactica вміє «міркувати про наукові знання» та шквал критики, змусила Meta закрити публічну демонстрацію моделі. 

BLOOM  — вільний доступ до знань про ШІ

BLOOM — це мовна модель, яка певною мірою схожа на ChatGPT, але з однією особливістю — її код доступний для дослідників. Проблема у тому, що досягнення у галузі штучного інтелекту поступово стають набутком корпорацій. Ми не знаємо напевно, за яким принципом працюють останні алгоритми Meta, Google, OpenAI чи Deepmind. 

BLOOM не перша модель мови з відкритим кодом такого розміру. Meta, Google та інші вже відкрили кілька моделей, але не з найсучасніших досліджень. Після більш ніж року колективної роботи, яка почалася у січні 2021 року, і навчання протягом трьох місяців на французькому суперкомп'ютері Jean Zay, BLOOM нарешті готовий. Це результат дослідницького семінару BigScience Research Workshop, який охоплює роботу понад 1000 дослідників з усього світу та 250 установ, зокрема Hugging Face та Монреальського інституту етики штучного інтелекту.

BigScience і BLOOM є втіленням набору етичних цінностей, які компанії не можуть представляти за визначенням. Тож вони презентують свою мовну модель з відкритим кодом і пропагують вільне поширення інформації про технології ШІ. 

Модель BLOOM має 176 млрд параметрів, здатна генерувати текст 46 природними мовами і 13 мовами програмування. Майже для всіх із них, як-от іспанська, французька та арабська, BLOOM стане першою великою мовною моделлю. Це вдалося зробити завдяки гранту на обчислення вартістю приблизно 3 млн євро від французьких дослідницьких агенцій CNRS і GENCI.

Штучний інтелект нарешті проникає у бізнес: підсумки 2022 року

Раніше суто наукові дослідження про алгоритми нарешті застосовують у бізнесі. Згідно з дослідженням журналу The Economist, 2022 рік був вдалим для індустрії ШІ:

  • $67 млрд вклали цього року венчурні капіталісти у фірми, які спеціалізуються на штучному інтелекті та аналізі даних. 
  • Від січня до жовтня створили 28 нових єдинорогів (приватних стартапів вартістю $1 млрд). 
  • Microsoft веде переговори про збільшення своєї частки в Open AI (лабораторія досліджень штучного інтелекту)
  • Alphabet, материнська компанія Google, планує інвестувати $200 млн у Cohere, конкурента Open AI.
  • Принаймні 22 стартапи зі штучним інтелектом запустили випускники Open AI та Deepmind.

Також видання наголошує, що попит на фахівців у Data Science зростає, а штучний інтелект будуть застосовувати до дедалі більшої кількості робочих місць і функцій компанії.

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Вікторія Рудзінська 1 годину тому

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 6 годин тому

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Олеся Дерзська 8 годин тому

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Олеся Дерзська 10 годин тому

Meta змінює свою політику щодо найбільш модерованого слова

Вікторія Рудзінська 2 липня 2024 22:20