Як говорити про штучний інтелект, щоб вас зрозуміли. ШІ-словник 2023
Нейромережі вже не тільки забавка для гіків. Поява ChatGPT та Midjourney змусила людей, далеких від галузі штучного інтелекту, розбиратися у складних термінах. Видання The Conversation зібрало усі терміни, що їх треба знати для розмови за кавою з друзями. SPEKA переклала й адаптувала статтю.
Алгоритм
Набір інструкцій, наданих компʼютеру для розвʼязання завдання або виконання обчислень, що перетворюють дані на корисну інформацію.
Аналіз тональності тексту
Спосіб оброблення природної мови (NLP), який використовують для виявлення та інтерпретації емоційного забарвлення тексту. Цей спосіб фіксує, наприклад, тон автора.
Велика мовна модель (LLM)
Великі дані /Big Data
Масивні набори даних (датасети), які значно перевищують обсяг пам’яті домашніх комп’ютерів та допомагають поточним моделям ШІ підвищувати точність.
Чотири ознаки великих даних:
- обсяг (велика загальна кількість даних),
- швидкість зростання даних,
- якість даних — наскільки ми можемо на них покладатись,
- різноманітність форматів, у яких надходять дані.
Відповідальний ШІ
Концепція, що виступає за розроблення та розгортання штучного інтелекту, який буде враховувати етичні аспекти життя людей.
Це (в ідеалі) завадило б ШІ отримувати результати, які є упередженими, дискримінаційними або іншим чином шкідливими для людства.
Генеративний ШІ
Нейромережі, які генерують контент (текст, зображення, аудіо та відео) у відповідь на запити — промпти. Приклади генеративного ШІ — це ChatGPT, DALL-E 2 та Midjourney.
Глибинне навчання
Підвид машинного навчання, що використовує продвинуті нейромережі й може обробляти великі масиви складних даних для розвʼязання різних завдань.
Дифузійна модель
Цю модель штучного інтелекту використовують, зокрема, для генерації зображень. Приклади — DALL-E та Stable Diffusion. Її архітектура занадто складна, щоб вміститись у кілька речень.
Підписуйтеся на наші соцмережі
Дифузійні моделі самокоригуються, коли стикаються з новими даними, тому особливо корисні у розвʼязуванні складних питань.
Загальний штучний інтелект (AGI)
Це гіпотетичний майбутній ШІ, який дорівнюватиме або перевершуватиме когнітивні можливості людини. Більшість експертів зі штучного інтелекту погоджуються, що це станеться, але розходяться в тому, коли це станеться, і чи призведе це до повної автономності ШІ.
Китайська кімната
Уявний експеримент «Китайська кімната» вперше запропонував американський філософ Джон Серл у 1980 році. Експеримент стверджує, що комп’ютерна програма, якою б розумною вона не здавалася, ніколи не буде свідомою і не зможе по-справжньому зрозуміти свою поведінку, як це робить людина.
«Китайську кімнату» часто згадують у розмовах про ChatGPT й схожі ШІ-інструменти, які, здається, демонструють риси самосвідомої сутності, але насправді лише транслюють результати на основі прогнозів, зроблених моделлю.
Контрольоване навчання (навчання з вчителем)
Підхід машинного навчання, у якому алгоритм вчиться прогнозувати під час навчання на розмічених даних. Алгоритм вчиться порівнювати розмічені вхідні дані з правильними вихідними даними. Навчившись на великій кількості прикладів, він може робити прогнози на нових даних.
Неконтрольоване навчання (навчання без вчителя)
Підхід машинного навчання, за якого алгоритми навчаються на немаркованих даних. Система досліджує патерни у даних без втручання людини. Мета такого навчання — знайти невідомі патерні, що їх можна використати для подальшого аналізу.
Оброблення природної мови / Natural Language Processing, NLP
Підгалузь штучного інтелекту, яка зосереджена на здатності компʼютерів вивчати, розуміти та відтворювати людську мову.
Параметри
Установки для налаштування моделей машинного навчання. Їх можна представити як запрограмовані ваги та упередження, що використовує модель під час прогнозування або розвʼязування завдання.
Параметри визначають, як модель оброблятиме й аналізуватиме дані, а також як вона працюватиме.
Приклад параметра — кількість нейронів у певному шарі нейромережі. Збільшення кількості нейронів дозволить нейронці вирішувати складніші завдання, але це також збільшить час обчислень і витрати на них.
Пояснюваний ШІ
Нова міждисциплінарна галузь, яка створює методи, що підвищать довіру користувачів до ШІ-систем.
Через складність деяких моделей штучного інтелекту їхня внутрішня робота часто непрозора: ми не можемо впевнено сказати, чому вони дають такі результати. Explainable AI прагне зробити ці «чорні ящики» більш зрозумілими.
Проблема контролю штучного інтелекту
Ця проблема стосується невідповідності наших очікувань від ШІ та результатів, який він дає.
Неналаштована система може бути кращою в продуктивності, але її поведінка суперечитиме людським цінностям. Наприклад, у 2015 році алгоритм розпізнавання зображень у Google Photos автоматично позначав фотографії темношкірих як фото горил.
Розмітка даних
Категоризація точок даних, що допомагає ШІ розуміти інформацію.
Розмітка даних містить:
- розпізнавання структур даних (відео, текст, зображення, аудіо тощо),
- додавання міток (тегів та класів) даних.
Люди помічають дані до початку машинного навчання. Розмічені дані розбивають на окремі датасети для тренування, валідації та тестування.
Тренувальний датасет згодовують системі для навчання. Валідаційний сет використовують, щоб перевірити, чи працює модель належним чином і коли налаштування параметрів (тюнінг) і навчання можна припинити. Тестувальний датасет використовують для оцінювання ефективності готової моделі.
Трансформер
Тип моделі глибокого навчання, який використовують переважно у NLP-завданнях.
Трансформер обробляє послідовні дані (наприклад, текст природною мовою) та визначає, як різні елементи пов’язані один з одним. Це схоже на те, як людина, що читає, звертає увагу на порядок слів, щоб зрозуміти значення всього речення.
Найвідоміший приклад — генеративний попередньо навчений трансформер (GPT), на якому працює чатбот ChatGPT. Модель GPT використовує трансформер для вивчення великого корпусу тексту без міток.
Тест Тюрінга
Концепція, яку сформулював англійський математик Алан Тюрінг у 1950 році. Мета тесту — визначити, чи може компʼютер демонструвати людський інтелект. Під час тесту оцінювач спілкується з компʼютером, не знаючи, людина чи алгоритм перед ним. Якщо компʼютеру вдається видати себе за людину, то він пройшов перевірку. Вперше алгоритм пройшов тест у 2014 році: чатбот, що видавав себе за 13-річного одесита Євгена Густмана (Eugene Goostman), запевнив 33% суддів, що вони спілкуються з людиною.
Вважається, що мовні моделі LaMDA від Google і ChatGPT від OpenAI пройшли тест Тюрінга.
Тренувальні дані
Тренувальні (навчальні) дані — це дані (зазвичай промарковані), які використовують для навчання ШІ-систем робити прогнози. Точність і репрезентативність даних на цьому етапі надто впливають на ефективність моделі.
Штучна нейронна мережа (ANN)
Комп’ютерні алгоритми, які використовують у deep learning (глибокому навчанні). Вони складаються з шарів взаємопов’язаних вузлів (нейронів), які імітують будову людського мозку.