Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

OpenAI використала понад мільйон годин відео з YouTube для навчання GPT-4

Богдан Камінський
Богдан Камінський
7 квітня 2024 2 хвилин читання

Компанія OpenAI використовувала модель транскрипції аудіо Whisper, щоб розшифрувати понад мільйон годин відео з YouTube для збору даних для навчання GPT-4

Про це повідомляє The New York Times.

За інформацією видання, OpenAI вичерпала запаси традиційних навчальних даних ще у 2021 році. Тоді компанія обговорювала можливість транскрибування відео з YouTube, подкастів та аудіокниг.

Попри юридичну сумнівність такого кроку, керівництво OpenAI, зокрема президент Ґреґ Брокман, особисто брали участь у зборі відео для цієї мети. Компанія виправдовувала свої дії концепцією «чесного використання» в рамках закону про авторські права.

Підписуйтеся на наші соцмережі

Представниця OpenAI Ліндсі Хелд підтвердила, що компанія збирає «унікальні» набори даних для кожної моделі, використовуючи як публічні, так і партнерські непублічні джерела. Також розробники розглядають можливість створення власних синтетичних даних.

OpenAI порушила правила YouTube?

З боку Google така діяльність розцінюється як порушення. Раніше компанія попереджала, що її правила Умов використання забороняють несанкціоноване завантаження контенту з YouTube для навчання ШІ.

Разом з тим, за даними The Times, Google також збирала стенограми з власної відеоплатформи для тренування штучного інтелекту. Однак, за їхніми словами, це відбувалося в рамках угод з авторами контенту.

Інші технологічні гіганти, як-от Meta, також розглядали можливість непублічного використання авторських творів для навчання своїх моделей ШІ через обмежену доступність якісних відкритих даних.

Раніше SPEKA писала, що OpenAI оновила GPT-4 Turbo актуальними даними 2023 року.

Підписуйтеся на наші соцмережі

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

Google інвестує ще $1 мільярд у Anthropic

Вікторія Рудзінська 1 годину тому

Штучний інтелект допомагає людям із паралічем керувати дроном силою думки

Вікторія Рудзінська 2 години тому

$500 млрд на американську ШІ-інфраструктуру: що таке Stargate та як він працюватиме

Олександр Тартачний 3 години тому

Microsoft відмовився від хмарної монополії для OpenAI

Кіра Іванова 4 години тому

Трамп оголосить про інвестиції на $500 млрд в інфраструктуру штучного інтелекту

Вікторія Рудзінська 21 годину тому