Головна машинне навчання

Головні події світу ШІ у 2022 році

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

27 грудня 2022 12 хвилин читання

Цього року світ з особливим захопленням генерував арти за текстовими запитами, спілкувався з розумними чатботами та мав справу із штучним інтелектом, навіть не підозрюючи про це. SPEKA розповідає, чим відзначився 2022 рік у технологіях машинного навчання та галузі штучного інтелекту.

OpenAI випустила розумного чатбота ChatGPT

30 листопада OpenAI випустила ChatGPT, прототип чатбота із штучним інтелектом. Він заснований на моделі мови сімейства GPT-3.5. Чатбот навчений на тексті та коді, а також проходив навчання з підкріпленням за допомогою зворотного зв'язку від людини. Після того як компанія виклала чатбот у попередній демодоступ, розмови з ChatGPT завірусились у мережі. Він став відомим через деталізовані та чітко сформовані відповіді, хоча іноді й неправдиві.

SPEKA теж протестувала ChatGPT, і він непогано відповідає на базові запитання. Може кодувати, давати поради та без проблем генерує креативний контент — текст пісні у певному стилі, жарт чи оповідання.

Оповідання у стилі Артура Конан Дойля про загублену шкарпетку створене ChatGPT

Дехто пророкує, що ChatGPT вб'є Google, оскільки може стати персоналізованим особистим помічником, який знає не менше ніж пошуковик. Однак поки що алгоритм не розуміє контексту і може розумними словами писати нісенітницю. Наприклад, про користь поїдання битого скла.

George Hotz “[GPT] is what kills Google”

Google: Game on!

——————————————-
Below, Round 1: Which country won the most Eurovision contests?

Google on left; GPT on right. Not sure I want that much personality in my search results… https://t.co/25XngLyiiV pic.twitter.com/FHEhMpgpsN
— Gary Marcus (@GaryMarcus) December 1, 2022

Попри те що ChatGPT чудово генерує креативний контент, йому ще далеко до інтелекту у класичному розумінні. ChatGPT не має відповідей на запитання, які змушували б його міркувати або висловити ставлення до певних подій чи явищ. Він не може прогнозувати, що трохи суперечить уявленню про розумний застосунок.

Такі системи можна використовувати насамперед для summary-контенту і проведення швидких market research, що змусить бізнес зацікавитися цими технологіями ще більше.

Генеративний контент та дифузійні моделі

Цього року були релізи багатьох моделей text2image (алгоритмів, які дозволяють створювати зображення за текстовим запитом). Про те, що нового у версії Midjourney 4.0, ми писали у листопаді. А ще публікували історію про те, як дизайнер компанії з розроблення програмного забезпечення Deephaven втомився шукати стокові фото, тому вирішив замінити усі обкладинки картинками, згенерованими нейромережею DALL-E 2. Як виявилося, ці сервіси можуть замінити фотобанки, але не витіснити з ринку художників та дизайнерів.

І Midjourney 4.0, і DALL-E 2, як і більшість інших сучасних сервісів text2image, суттєво покращили якість генерування зображень у 2022 році. Усе через нову архітектуру — дифузійні моделі.

Приклади деяких зображень згенерованих Midjourney 4.0 та DALL-E 2

Перші фази роботи цього алгоритму доволі схожі на типове машинне навчання: дослідники передають у комп'ютерну систему сотні мільйонів зображень, які зазвичай беруть з інтернету. Кожне зображення поєднується із супровідним описом, тому комп'ютер навчається визначати зв'язки між зображеннями та словами.

Коли ви вводите текстовий запит, наприклад, слово «такса», модель ШІ починає пов'язувати слова із зображеннями. AI створює внутрішню мапу концепцій, перетворюючи зображення та тексти на числа та призначаючи деяким асоціаціям вищі ймовірності (наприклад, коло зображення собаки часто буде повідець або люди).

Потім дослідники додають «шум» — візуальний безлад до набору зображень. Візуальний шум — це шаблон із випадкових точок або пікселів, які накладають, затемнюючи вихідне зображення. Дослідники додають дедалі більше шуму, щоб навчити модель розпізнавати, що це базове зображення досі містить таксу.

Приклад додавання цифрового шуму до зображення під час навчання моделі. Скриншот: The Washingron Times

Підписуйтеся на наші соцмережі

Потім штучний інтелект вчиться прибирати шум, щоб затемнене зображення стало чітким. Згодом штучний інтелект настільки добре приглушає зображення, що може генерувати детальне зображення з чистого шуму.

AlphaCode зміг програмувати як middle-розробник?

У лютому алгоритм Deepmind AlphaCode нібито вийшов на рівень людських здібностей. Систему протестували на Codeforces — популярному змаганні з програмування серед людей. AlphaCode отримав середній рейтинг 54,3% з 10 спроб. Як заявляють розробники системи, це відповідає розробнику рівня middle.

Учасникам дають 5-10 описів завдань, і вони мають надіслати якомога більше рішень протягом приблизно трьох годин. Змагальне програмування потребує надто специфічного набору навичок, логічного мислення, розуміння принципів алгоритмів тощо.

Схема роботи AlphaCode. Модель навчали на наборі у 700 Гб відкритого коду із GitHub

AlphaCode зазвичай краще програмує на Python (синтаксис C++ складніший), і він генерує таку саму кількість мертвого коду (код, який написаний, але не надає рішення), як люди. AlphaCode досяг нового рівня. Це єдина система генератора коду, яка досягає конкурентного рівня у змаганнях з програмування, але твердження, яке зробив Deepmind, про відповідність розробнику рівня middle, радше безпідставне.

Річ у тім, що у різних спробах результат, який набирав AlphaCode, міг відрізнятися на 30%. Наприклад, у конкурсі №1618 AlphaCode набрав 62,3%, 32,1% і 62,3%. Зміна оцінки на 30% показує, що AlphaCode може бути недостатньо надійним. Крім того, завдання сортують за складністю, і AlphaCode майже завжди розв'язував найлегші у кожному блоці.

У таких змаганнях алгоритм має перевагу, оскільки, на відміну від людей, не помиляється через тиск часу, але AphaCode — це так званий вузький ШІ, тобто він працює лише з одним типом завдань. Натомість людина має й інші здібності, як-от «планування та визначення стратегії». У AlphaCode не має друзів. Якщо у людини-програміста виникла проблема, вона може звернутися по допомогу до товариша по команді. Це найкращий інструмент у наборі навичок людини, і AlphaCode не може з ним конкурувати.

Розробки Google-2022: синтез відео за текстом і редактор художнього тексту

Google має навіть не одну, а дві моделі, які можуть генерувати відео з підказок. Phenaki може створювати відео тривалістю до 2 хвилин за вашим запитом. Його головний недолік — погана якість зображення. Натомість модель Imagen Video створює короткі кліпи високої роздільної здатності. Google об'єднав обидві моделі в одну, щоб використати їхні переваги. Комбінована модель може створювати довгі послідовні відео високої якості.

Також у корпорації є розробка Wordcraft, яка базується на LaMDA (Language Model for Dialogue Applications). Її завдання — імітувати мовні патерни, вивчаючи лексику в інтернеті.

Wordcraft — інструмент для створення художньої літератури зі штучним інтелектом. Він призначений для творчого письма, оповідання історій та експериментальної художньої літератури. На жаль, Wordcraft, як і попередні інструменти Google, не є загальнодоступним. Google не надає доступ до цих сервісів.

Користувачі можуть переписувати речення та запропонувати ШІ змінити їх, наприклад, «зробити це смішнішим». Вони також можуть попросити його продовжити ідеї або вдосконалити наявні. Окрім того, Google додав функцію, яку вони називають підказкою довільної форми. Враховуючи контекст, користувач може попросити Wordcraft згенерувати підказку (наприклад, «скажи мені, що відчув старий від квітів», якщо у вашому оповіданні вже згаданий цей герой).

Щоб перевірити Wordcraft у реальному світі, Google створив Wordcraft Writers Workshop. Вони запросили 13 професійних творчих авторів: сценаристів, поетів, педагогів тощо, щоб оцінити інструмент. Разом вони створили оповідання. Наскільки мені відомо, це перша робота у такому форматі.

Провал року: науковий алгоритм Galactica

У листопаді Meta анонсувала нову велику мовну модель (LLM) для науки і назвала її Galactica — реверанс до Енциклопедії Galactica Айзека Азімова. На вебсайті сказано, що це «модель, яка може зберігати, комбінувати та міркувати про наукові знання».

Мета алгоритму, без сумніву, благородна: компанія задумала Galactica, щоб «організувати науку», оскільки людство знає та зберігає дедалі більшу кількість знань про світ. Проте загальний відсоток, який ми можемо поглинути, швидко зменшується.

Galactica — це сімейство мовних моделей, навчених на 60+ млн високоякісних наукових документів (статей, підручників, енциклопедій). Meta заявляла, що Galactica може «узагальнювати академічну літературу, розв'язувати математичні задачі, генерувати статті Wiki, писати науковий код, анотувати молекули та білки тощо».

І це начебто чудово, але модель розкритикували вчені. Наприклад, Саймон Дж. Грінхілл, професор Школи біологічних наук Оклендського університету, сказав, що Galactica стала чудовою послугою для паперових фабрик, шахраїв-плагіаторів і студентів-халявників.

So, Meta has just released `Galactica` -- an AI trained on scientific work. Here's an automatically generated lit. review on cultural evolution: https://t.co/GTfIwHPlC3

A great service to paper mills, fraudulent plagiarists & cheating students everywhere. Thanks Facebook! 💩
— Simon J Greenhill (@SimonJGreenhill) November 15, 2022

«Що мене так непокоїть у Galactica від Facebook, то це те, що вона прикидається порталом знань. Насправді це просто генератор випадкової фігні», — заявив Карл Т. Бергстром, професор біології Університету Вашингтона у Сіетлі.

Схоже, що вчені мали привід для гніву.

Galactica чудово вміє генерувати факти, які виглядають як наукові. Коли нейромережа рецензує якісь дані, вона також може змішати їх із такими, які ніколи не існували. Наприклад, за запитом Galactica придумала вікі-статтю про «компліментарність Леннона-Оно», яка нібито пояснює вигаданий математичний ефект, названий на честь Джона Леннона та Йоко Оно.

Wiki-стаття про «компліментарність Леннона-Оно», створена Galactica

Очевидна брехня про те, що Galactica вміє «міркувати про наукові знання» та шквал критики, змусила Meta закрити публічну демонстрацію моделі.

BLOOM — вільний доступ до знань про ШІ

BLOOM — це мовна модель, яка певною мірою схожа на ChatGPT, але з однією особливістю — її код доступний для дослідників. Проблема у тому, що досягнення у галузі штучного інтелекту поступово стають набутком корпорацій. Ми не знаємо напевно, за яким принципом працюють останні алгоритми Meta, Google, OpenAI чи Deepmind.

BLOOM не перша модель мови з відкритим кодом такого розміру. Meta, Google та інші вже відкрили кілька моделей, але не з найсучасніших досліджень. Після більш ніж року колективної роботи, яка почалася у січні 2021 року, і навчання протягом трьох місяців на французькому суперкомп'ютері Jean Zay, BLOOM нарешті готовий. Це результат дослідницького семінару BigScience Research Workshop, який охоплює роботу понад 1000 дослідників з усього світу та 250 установ, зокрема Hugging Face та Монреальського інституту етики штучного інтелекту.

BigScience і BLOOM є втіленням набору етичних цінностей, які компанії не можуть представляти за визначенням. Тож вони презентують свою мовну модель з відкритим кодом і пропагують вільне поширення інформації про технології ШІ.

Модель BLOOM має 176 млрд параметрів, здатна генерувати текст 46 природними мовами і 13 мовами програмування. Майже для всіх із них, як-от іспанська, французька та арабська, BLOOM стане першою великою мовною моделлю. Це вдалося зробити завдяки гранту на обчислення вартістю приблизно 3 млн євро від французьких дослідницьких агенцій CNRS і GENCI.

Штучний інтелект нарешті проникає у бізнес: підсумки 2022 року

Раніше суто наукові дослідження про алгоритми нарешті застосовують у бізнесі. Згідно з дослідженням журналу The Economist, 2022 рік був вдалим для індустрії ШІ:

$67 млрд вклали цього року венчурні капіталісти у фірми, які спеціалізуються на штучному інтелекті та аналізі даних.
Від січня до жовтня створили 28 нових єдинорогів (приватних стартапів вартістю $1 млрд).
Microsoft веде переговори про збільшення своєї частки в Open AI (лабораторія досліджень штучного інтелекту)
Alphabet, материнська компанія Google, планує інвестувати $200 млн у Cohere, конкурента Open AI.
Принаймні 22 стартапи зі штучним інтелектом запустили випускники Open AI та Deepmind.

Також видання наголошує, що попит на фахівців у Data Science зростає, а штучний інтелект будуть застосовувати до дедалі більшої кількості робочих місць і функцій компанії.

Підписуйтеся на наші соцмережі

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH

Інші матеріали

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Вікторія Рудзінська 1 годину тому

OpenAI вирішила проблему безпеки у ChatGPT для macOS, що дозволяла зловмисникам легко читати чати користувачів у звичайному тексті. Оновлення застосунку тепер шифрує розмови.

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 6 годин тому

Бразильський регулятор захисту даних (ANPD) заборонив Meta тренувати свої моделі штучного інтелекту на бразильських персональних даних, посилаючись на «ризики серйозної шкоди та труднощів для користувачів».

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Олеся Дерзська 8 годин тому

Google цьогоріч представив інструменти з інтеграцією ШІ, що коротко переказують зміст новин та документів. Вони споживають вдесятеро більше електроенергії за звичайний пошук у Google, пише видання Boing Boing.

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Олеся Дерзська 10 годин тому

В США Google перед президентськими виборами вимагатиме від рекламодавців маркувати ШІ в рекламі, повідомляє Reuters. Втім, тепер позначати видозмінені чи синтетичні зображення стало легше.

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Meta змінює свою політику щодо найбільш модерованого слова

Вікторія Рудзінська 2 липня 2024 22:20

Meta вирішила змінити свою політику щодо модерації арабського слова «shaheed», яке вважається найбільш модерованим словом на платформах компанії.

Meta змінює свою політику щодо найбільш модерованого слова

Головні події світу ШІ у 2022 році

OpenAI випустила розумного чатбота ChatGPT

Генеративний контент та дифузійні моделі

Підписуйтеся на наші соцмережі

AlphaCode зміг програмувати як middle-розробник?

Розробки Google-2022: синтез відео за текстом і редактор художнього тексту

Провал року: науковий алгоритм Galactica

BLOOM — вільний доступ до знань про ШІ

Штучний інтелект нарешті проникає у бізнес: підсумки 2022 року

Підписуйтеся на наші соцмережі

Будь в курсі зі SPEKA

Дякуємо, що підписалися на SPEKA. Буде гаряче!

OpenAI усунула проблему безпеки в застосунку ChatGPT для macOS

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Meta змінює свою політику щодо найбільш модерованого слова