OpenAI використала понад мільйон годин відео з YouTube для навчання GPT-4
Про це повідомляє The New York Times.
За інформацією видання, OpenAI вичерпала запаси традиційних навчальних даних ще у 2021 році. Тоді компанія обговорювала можливість транскрибування відео з YouTube, подкастів та аудіокниг.
Попри юридичну сумнівність такого кроку, керівництво OpenAI, зокрема президент Ґреґ Брокман, особисто брали участь у зборі відео для цієї мети. Компанія виправдовувала свої дії концепцією «чесного використання» в рамках закону про авторські права.
Підписуйтеся на наші соцмережі
Представниця OpenAI Ліндсі Хелд підтвердила, що компанія збирає «унікальні» набори даних для кожної моделі, використовуючи як публічні, так і партнерські непублічні джерела. Також розробники розглядають можливість створення власних синтетичних даних.
OpenAI порушила правила YouTube?
З боку Google така діяльність розцінюється як порушення. Раніше компанія попереджала, що її правила Умов використання забороняють несанкціоноване завантаження контенту з YouTube для навчання ШІ.
Разом з тим, за даними The Times, Google також збирала стенограми з власної відеоплатформи для тренування штучного інтелекту. Однак, за їхніми словами, це відбувалося в рамках угод з авторами контенту.
Інші технологічні гіганти, як-от Meta, також розглядали можливість непублічного використання авторських творів для навчання своїх моделей ШІ через обмежену доступність якісних відкритих даних.
Раніше SPEKA писала, що OpenAI оновила GPT-4 Turbo актуальними даними 2023 року.