Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Штучний інтелект під загрозою: де техкомпанії братимуть дані для навчання

Олександр Тартачний
Олександр Тартачний журналіст
3 вересня 2024 10 хвилин читання

Що більше даних опрацює під час навчання нейронна мережа, то кращі відповіді вона здатна надавати. Однак згодом інтернет може виявитись місцем, у якому недостатньо інформації для нових, потужніших алгоритмів. Що відомо про брак даних для навчання штучного інтелекту та як цьому намагаються запобігти. 

Дані, придатні для навчання штучного інтелекту вичерпуються: як це вплине на ШІ-індустрію Дані, придатні для навчання штучного інтелекту вичерпуються: як це вплине на ШІ-індустрію

Чому нейромережам потрібні великі датасети

Ще від 1950-х люди працювали над тим, щоб «змусити машини використовувати мову, формувати абстракції та поняття», а також «вирішувати види проблем, які зараз зарезервовані для людей». 

У 1940-х людство з’ясувало, як працюють клітини мозку — різновид нейронів. Кібернетики того часу почали замислюватися, чи можна так само під’єднати машини. У біологічному мозку існують зв’язки між нейронами, які дають змогу за активності одного запускати або пригнічувати активність іншого. 

Нейромережі не програмуються за допомогою наявних правил, натомість вони навчаються, знайомлячись із багатьма прикладами. Під час цього тренування міцність зв’язків між нейронами (відома як «ваги») регулюється так, щоб зрештою кожен вхідний запит отримував конкретну відповідь. 

Дослідники вважають, що додавання більше шарів нейронів дозволяє виконувати складніші завдання. Але це також змушує системи працювати набагато повільніше.

Як працює нейромережа, візуальне пояснення [відео]

Потужність цього нового підходу, відомий як глибоке навчання, стала очевидною під час конкурсу ImageNet Challenge 2012 року. Тоді команда за керівництва Джеффа Хінтона використала глибоке навчання, щоб досягти точності розпізнавання зображень 85%. Це визнали проривом.

До 2015 року майже всі в галузі розпізнавання зображень використовували глибоке навчання, і точність перемоги в ImageNet Challenge досягла понад 96% — це точніше, ніж середня оцінка людини.
Помилки класифікації на ImageNet Challenge Помилки класифікації на ImageNet Challenge

Як нейромережі навчаються писати, рахувати та кодувати водночас

Через збільшення кількості тренувальних даних алгоритми стали здатними не лише до вправного виконання одного практичного завдання.  

У 2017 році з’явився новий спосіб організації зв’язків між нейронами — трансформатор. Трансформатори дозволяють нейронним мережам відстежувати шаблони у вхідних даних, навіть якщо елементи шаблону розташовані далеко один від одного, таким чином, щоб вони могли приділяти увагу конкретним характеристикам даних.

Великі мовні моделі на основі трансформаторів (LLM) почали привертати увагу в 2019 році, коли стартап OpenAI випустив модель під назвою GPT-2 (GPT означає generative pre-trained transformer).  

Виявилося, що такі LLM здатні до «виниклої» поведінки, якої вони не були спеціально навчені. Поглинання величезної кількості тексту зробило їх вправними не лише у лінгвістичних завданнях, як-от узагальнення чи переклад, але й у таких речах, як арифметика чи написання коду, які неявно містилися у навчальних даних. 

Підписуйтеся на наші соцмережі

Скільки даних використовують для навчання та коли вони закінчаться 

Нам потрібно багато даних для навчання потужних, точних і високоякісних алгоритмів ШІ. Наприклад, ChatGPT було навчено на 570 Гб (з оновленнями) текстових даних, або приблизно 300 млрд слів.

Тренувальні дані в GPT-2 та GPT-3 Тренувальні дані в GPT-2 та GPT-3

Подібним чином алгоритм стабільної дифузії (який лежить в основі багатьох додатків штучного інтелекту для створення зображень, таких як DALL-E, Lensa та Midjourney) був навчений на наборі даних LIAON-5B, що складається з 5,8 млрд пар зображення-текст. Якщо алгоритм навчається на недостатній кількості даних, він вироблятиме неточні або низькоякісні результати.

Якість навчальних даних також важлива. Дані низької якості, такі як публікації в соціальних мережах або розмиті фотографії, легко отримати, але їх недостатньо для навчання високопродуктивних моделей ШІ. Текст, узятий із платформ соціальних медіа, може бути упередженим? містити дезінформацію чи незаконний контент, який може бути відтворений моделлю. Наприклад, коли Microsoft намагалася навчити свого бота ШІ за допомогою вмісту Twitter, він навчився створювати расистські результати.

Ось чому розробники штучного інтелекту шукають високоякісний вміст, наприклад текст із книг, онлайн-блогів, наукових статей, Вікіпедії та певного відфільтрованого вебконтенту. Google Assistant був навчений на 11 тис. любовних романів, взятих із сайту самвидаву Smashwords, щоб зробити його більш розмовним.

У статті група дослідників передбачила, що у нас закінчаться високоякісні текстові дані до 2026 року, якщо поточні тенденції навчання ШІ збережуться. Вони також підрахували, що мовні дані низької якості будуть вичерпані десь між 2030 і 2050 роками, а дані зображень низької якості – між 2030 і 2060 роками.

Кількість параметрів у моделях машинного навчання. Дані: AI Index report Кількість параметрів у моделях машинного навчання. Дані: AI Index report

Де техкомпанії шукатимуть контент для своїх алгоритмів

Подолати цю проблему розробники штучного інтелекту намагаються у кілька способів: 

YouTube 

Як повідомляє The New York Times, наприкінці 2021 року OpenAI вичерпала всі джерела авторитетних англомовних текстів в інтернеті. Тому дослідники OpenAI створили інструмент розпізнавання мови під назвою Whisper. Він може транскрибувати аудіо з YouTube-відео в текст. Цей один із найточніших інструментів за своїм типом був потрібен насамперед для того, щоб витягти контент із відеохостингу.

OpenAI транскрибувала більше мільйона годин відео з YouTube. До команди входив Грег Брокман, президент OpenAI, який особисто допомагав зібрати відео. Потім тексти були подані в систему під назвою GPT-4 й лягла в основу останньої версії чат-бота ChatGPT. 

Також підозрюють, що створення Sora — нейромережі, що дає змогу створювати відео за текстовим запитом, не обійшлось без участі YouTube. 

У недавньому інтерв’ю з WSJ Міра Мураті з OpenAI сказала, що дані, використані для навчання Sora, надходять із загальнодоступних джерел, але вона відмовилася говорити точніше. Зокрема, чи були туди включені відео YouTube.

Інтерв'ю з CTO OpenAi Мірою Мураті [відео]

Загальнодоступний контент людей у ​​Google Документах, Google Таблицях

Минулого року Google розширив свої умови обслуговування. Як розповідають члени команди з питань конфіденційності компанії. Одна з причин — надання Google можливості використовувати загальнодоступний контент людей у ​​Google Документах Таблицях і пов’язаних програмах для низки продуктів ШІ.

До 2023 року у політиці конфіденційності Google зазначалось, що компанія може використовувати загальнодоступну інформацію лише для того, щоб «допомогти в навчанні мовних моделей Google і створити такі функції, як Google Translate».

Формулювання змінилося на «допомогти в навчанні моделей штучного інтелекту та створення продуктів і функцій, таких як Google Translate, Bard і можливості хмарного штучного інтелекту».

Фотобанки

Це величезні сховища якісних та розмічених даних. OpenAI ще із 2021 року співпрацює із Shutterstock, а із 2023 року фотобанк заявив, що надасть OpenAI «високоякісні» навчальні дані, а саме доступ до своїх бібліотек відео, зображень і музики. Shutterstock натомість матиме можливість генерувати на сайті зображення з текстових промптів OpenAI й дасть змогу клієнтам використовувати «можливості синтетичного редагування», щоби вдосконалити будь-яке зображення з Shutterstock.

Photobucket (один з найбільших фотобанків у США) веде переговори з кількома технологічними компаніями про ліцензування 13 млрд фотографій і відео, які є у його власності. За словами директора, він обговорював ставки від 5 центів до $1 за фотографію й понад $1 за відео, причому ціни сильно відрізнялися як від покупця, так і від типів зображень. Деякі компанії, наприклад, потребують мільярда відео — більше ніж є у фотобанку.

Класичні медіа та видавництва

Компанія Meta торік обговорювала купівлю видавництва Simon & Schuster, яке зокрема видає Стівена Кінга, або ж платити по $10 за ліцензування кожної книги. 

Разом з тим представники компанії також розглядали варіант збирати захищені авторським правом дані з Інтернету, навіть якщо це загрожує судовими позовами. Мовляв, переговори про ліцензії займуть надто багато часу. 

Оскільки ЗМІ стали одним із перших джерел для датасетів, чимало медіа встановили заборону на сканування контенту пошуковими роботами. 

OpenAI уклала договори про компенсацію із The Associated Press, Bild, Welt, The Financial Times, Politico, El País та іншими. Водночас триває розгляд судових справ проти The New York Times, новинних сайтів Raw Story й AlterNet, а також Alden Global Capital (New York Daily News, Chicago Tribune та кількох інших медіа). Результат розгляду справи найімовірніше стане прецедентом для усталеної практики в майбутніх судах. 

Чи можна використовувати синтетичні дані

Частковим розв’язуванням проблеми можуть стати «синтетичні дані» — інформація, яка створюється за допомогою самого ШІ, на відміну від документування подій реального світу. Основна перевага синтетичного набору даних — вони достатньо універсальні, щоб стати корисним для навчання моделей. 

Це може допомогти, але таїть у собі нові загрози. У нейромереж існує таке поняття як «перенавченість», коли алгоритм добре розпізнає лише навчальні дані, але погано справляється з реальними завданнями, які містять дещо відмінну інформацію. До того ж нейромережа, навчена на синтетичних даних, не матиме відомостей про поточні події та ще більше посилить та повторить власні неточності, упередження та помилки. Крім того, синтетичні дані схильні до проблеми регресії. По суті, чим більше ітерацій ви проходите, тим більш однорідними вони стають. 

Приклад синтетично згенерованого набору чисел. Після кількох ітерацій втрачається розуміння відмінностей.   Приклад синтетично згенерованого набору чисел. Після кількох ітерацій втрачається розуміння відмінностей.  

Кілька проєктів уже використовують синтетичний контент, який часто отримують із служб генерації даних, як-от Mostly AI. Це стане більш поширеним у майбутньому.

Інший підхід — навчати високопродуктивні системи штучного інтелекту, використовуючи менше даних і, можливо, меншу обчислювальну потужність. Наприклад, деякі компанії, як-от Dataology, яку заснував колишній дослідник Meta та Google DeepMind Арі Моркос, шукають шляхи підготовки більших і розумніших моделей з меншою кількістю даних і ресурсів.

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

Google виграв суд проти антимонопольного штрафу ЄС на 1,49 млрд євро

Анастасія Ковальова 2 години тому

YouTube додав нові ШІ-функції для створення контенту — що відомо

Вікторія Рудзінська 2 години тому

Google позначатиме зображення створені за допомогою штучного інтелекту

Владислав Паливода 23 години тому

Генеративний штучний інтелект прискорює кліматичну кризу у світі

Владислав Паливода 23 години тому

Google надає кошти, щоб розширити доступ до освітньої програми Experience AI в Україні

Анастасія Ковальова 17 вересня 2024 13:55