Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Runway невдовзі випустить нову версію нейромережі, яка генерує відео за текстовим запитом: що відомо?

Олександр Тартачний
Олександр Тартачний журналіст
22 березня 2023 7 хвилин читання

Компанія, що створила ШІ-сервіс для монтування графіки, готується випустити нову нейромережу, яка створюватиме відео. Розповідаємо, що відомо про Runway і чи вдасться їй обійти Google та Meta у перегонах алгоритмів. 

 Runway: від програми для оброблення відео до нейромережі

Runway розпочався як дипломний проєкт співзасновника Крістобаля Валенсуели у Школі мистецтв при Нью-Йоркському університеті.

Спершу він створив програму Runway ML, яка пропонувала художникам, дизайнерам, відеографам та іншим креативникам можливості машинного навчання для оброблення зображень та відео. Наприклад, аніматор з обмеженим бюджетом хоче перетворити відео з актором на 3D-модель. Замість того щоб наймати дороге обладнання для захоплення руху, можна використовувати Runway ML. Або ж запустити відзнятий матеріал через модель сегментації, яка автоматично виділятиме або змінюватиме зайві об'єкти та написи у кожному кадрі, які потрібно прибрати.

Приклад виділення та накладання маски на особу в кадрі за допомогою  Runway ML. Скриншот: YouTube-канал Premiere Gal Приклад виділення та накладання маски на особу в кадрі за допомогою  Runway ML. Скриншот: YouTube-канал Premiere Gal

Отримавши у 2019 році захоплені відгуки від арт-спільноти, Валенсуела попросив двох шкільних друзів стати співзасновниками та зібрав стартовий капітал від спонсорів. 

У 2021-му Runway співпрацювала з дослідниками Мюнхенського університету, щоб створити першу версію Stable Diffusion — нейромережі, що здатна генерувати зображення із текстових запитів. Тоді британський стартап Stability AI сплатив витрати на навчання моделі. 

Зараз Runway більше не співпрацює зі Stability AI. На останню фотобанк Getty Images подав позов до суду, стверджуючи, що компанія використовувала зображення Getty, які з'являються у навчальних даних Stable Diffusion, без дозволу. Судовий розгляд ще триває і ймовірно стане прецедентом для поняття авторського права на згенерований контент.

Коли Runway оприлюднить нову нейромережу та на що вона здатна?

Runway анонсувала свою першу модель редагування відео AI Gen-1 у лютому. Gen-1 переважно працює із трансформацією наявних фото та відео, дозволяючи застосовувати користувачам фільтри або створювати 3D-анімацію. Наприклад, кадри картонного пакування перетворюються на зображення промислової фабрики. 

Натомість Gen-2 має створювати відео з нуля за текстовим запитом. Runway каже, що зробить свою нову генеративну відеомодель Gen-2 доступною для користувачів найближчими тижнями.

Схожі розробки є у технологічних гігантів, зокрема Meta та Google. Натомість Runway стверджує, що створив свою модель з урахуванням клієнтів. «Це одна з перших моделей, яку розробили разом із спільнотою виробників відео, — каже Валенсуела. — У ній є розуміння того, як кінематографісти та монтажери насправді працюють над постпродакшеном». До того ж можливості Ranway значно скромніші — у компанії працюють 45 співробітників. 

Чи якісна Gen-2 від Ranway?

Графіка та деталізованість відео, які демонструє Ranway, виглядають значно краще, ніж розробки Google чи Meta. Але є кілька застережень, на які слід звернути увагу. По-перше, демонстраційні ролики, дуже короткі, тривають приблизно 1 секунду і радше схожі на гіфки, ніж на повноцінні відео. 

Окрім того, доступ до Gen-1 та Gen-2 обмежений. Компанія у себе на сайті запрошує реєструватися, щоб приєднатися до списку очікування для Gen-2, яка працюватиме через Discord. Щоправда, посилання на реєстрацію на момент написання статті не працюють, з чого жартують у коментарях до дописів компанії у Twitter, хоча деякі із користувачів зазначають, що їм вдалося потестити Gen-1.

Реакція користувачів на анонс Gen-2

Але наразі усе, що ми маємо про Gen-2, — це демонстраційний ролик і кілька кліпів (більшість з яких уже рекламувалися як частина Gen-1).

Що заважає нейромережам створювати відео?

Створити правдиве відео, повністю згенероване штучним інтелектом, поки що дуже складне завдання.

Усі моделі переважно мають схожі технічні обмеження — розмиття кадрів та незв'язану анімацію. Методи навчання не в змозі вивчити інформацію, яку розуміє людина, що переглядає відео, наприклад, чи рухається відео зліва направо чи справа наліво. Інші проблеми стосуються створення відео тривалістю понад п'ять секунд, відео з кількома сценами та з високою роздільною здатністю.

 Наприклад, Meta у своїй розробці Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64 на 64 пікселі, які потім потрібно збільшувати за допомогою окремої моделі ШІ до 768 на 768.

Чого досягли Google Meta у генерації відео за допомогою ШІ

Зараз ролики від Make-A-Video тривають не більше п'яти секунд і не містять звуку. Відео виглядають надто штучними, але, на думку Марка Цукерберга, це однаково успіх. У своєму пості він описав цю роботу як «дивовижний прогрес», додавши: «Згенерувати відео набагато важче, ніж фотографії, тому що, крім правильного створення кожного пікселя, система також має передбачити, як вони змінюватимуться з часом».

Meta наразі також не надає доступ до моделі. Це означає, що під час створення компанія могла обрати відео, що показують її у найкращому світлі. 

Google вирішив створити не одну, а дві моделі. Phenaki може створювати відео тривалістю дві хвилини за вашим запитом, але поганої якості.

Натомість модель Imagen Video створює короткі кліпи високої роздільної здатності. Ймовірно, у компанії сподіваються, що комбінована модель може створювати довгі послідовні відео високої якості. У документі, що описує модель, дослідники кажуть, що їхній метод може генерувати відео довільної тривалості. 

Чи можуть відеомоделі засвоїти когнітивні упередження

Наразі невідомо, на яких даних навчався Gen-2, але загалом це можливо для усіх нейромереж, які генерують контент. Meta наголошує, що, як і всі моделі штучного інтелекту, навчені на даних, зібраних з інтернету, Make-A-Video «вивчила та, ймовірно, перебільшила соціальні упередження, зокрема шкідливі». Наприклад, якщо попросити модель створити зображення керівника компанії, то на ньому ймовірно буде білий чоловік середнього віку у костюмі. Однак неможливо сказати, які упередження засвоїла модель Meta без відкритого доступу.

Phenaki був навчений з різними наборами даних, серед них LAION-400M, який містить насильницький, кривавий і порнографічний контент, але покращив продуктивність моделі. Команда зазначає, що вони експериментували з фільтрами, щоб упіймати запити, які можуть створити NSFW-контент і видалити з відео, проте не прозвітували про успіх, тому робить висновок, що «залишилося кілька важливих проблем безпеки та етики».

Як і в моделях перетворення тексту в зображення, тут існує потенціал для шкідливих програм. У дописі в блозі Meta, де анонсується Make-a-Video, компанія зазначає, що інструменти створення відео можуть бути недооціненими для творців, але їх можна використати для дезінформації, пропаганди та  створення порнографії без згоди, щоб застосовувати переслідування та залякування жінок.

Також припускають, що, коли технологія стане доступною, не мине й хвилини, як її застосують для створення порнографії, а також фейкових новин.

0
Прокоментувати
Інші матеріали

Інвестори Tesla подали до суду на Ілона Маска за відкриття xAI

Олеся Дерзська 7 годин тому

Microsoft інвестує 6,69 млрд євро у нові центри оброблення даних в Арагоні, Іспанія

Вікторія Рудзінська 15 червня 2024 07:09

AI несеться: боротьба з аудіодипфейками, багато оновлень від OpenAI та Anthropic

Владислав Миронович 14 червня 2024 18:30

Clearview AI: незвичайне врегулювання позову через розподіл частки в компанії

Вікторія Рудзінська 14 червня 2024 17:49

Picsart об'єднався з Getty Images для запуску безпечного генератора зображень ШІ

Вікторія Рудзінська 14 червня 2024 16:05