Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Як дізнатися, чи відео, яке ви переглядаєте, створено за допомогою ШІ

Назар Стрільчук
Назар Стрільчук Системний адміністратор у UpWork
3 березня 2025 8 хвилин читання

Компанії штучного інтелекту в захваті від відеогенераторів. Вони стверджують, що демократизує процес створення та монтажу відео. Однак технологія, яка дозволяє будь-кому створювати реалістичне відео за допомогою текстового запиту має багато моральних дилем. Ви справді хочете жити у світі, де будь-яке відео, яке ви бачите в Інтернеті, могло б бути створене з повітря за допомогою ШІ? Подобається нам це чи ні, але ось куди ми прямуємо.

Спробуймо з’ясувати. Як розрізнити реальні відео від згенерованих. 

Два типи згенерованих відео

Зараз дійсно є два види відео зі штучним інтелектом, на які варто звернути увагу. Перші — це відео, повністю згенеровані моделями штучного інтелекту, які не використовують реальні кадри та яких ніколи не існували до створення. Подумайте про модель Sora від OpenAI, яка здатна відтворювати короткі, але високоякісні відео, які іноді змушують людей подумати, що вони справжні. Наразі, Sora все ще знаходиться в розробці та ще не доступна для громадськості, але є інші інструменти.

Поки що більшою проблемою є відео, змінені штучним інтелектом. Подумайте про глибокі фейки: справжні відео, які використовують штучний інтелект, щоб накласти обличчя однієї людини на обличчя іншої або змінити справжнє обличчя відповідно до маніпульованого аудіовмісту.

Ми розглянемо способи виявлення обох типів відеоконтенту.

Як працюють відеогенератори штучного інтелекту

Як і інші генеративні моделі штучного інтелекту, відеогенератори ШІ отримують величезну кількість даних для роботи. Моделі зображень штучного інтелекту навчаються на окремих зображеннях і вчаться розпізнавати шаблони та зв’язки на статичних фрагментах, відеогенератори штучного інтелекту навчаються шукати зв’язок між кількома зображеннями та те, як ці зображення змінюються послідовно. Зрештою, відео — це просто серія окремих зображень, що відтворюються зі швидкістю, яка створює ілюзію руху. 

Програми Deepfake спеціально тренуються на обличчях і розроблені, щоб імітувати рухи та емоції відео, яке вони накладають. Вони часто використовують генеративну змагальну мережу (GAN), яка протиставляє дві моделі штучного інтелекту: одну, яка генерує вміст штучного інтелекту, а іншу, яка намагається визначити, чи створено цей контент штучним інтелектом.

З іншого боку, така модель, як Sora, теоретично здатна генерувати відео майже на будь-якому запиті. Sora — це те, що називається дифузійною моделлю, яка додає «шум» (статичне відхилення) до навчальних даних, доки вихідне зображення не зникне. Звідси модель спробує створити нову версію цих даних із шуму, що навчить її створювати новий вміст з нуля.

Підписуйтеся на наші соцмережі

Поки що ще рано для повного створення відео штучного інтелекту, і хоча технологія deepfake хороша, вона не чудова. Тут є обмеження, яких може не бути в майбутніх ітераціях цих технологій, але на сьогоднішній день є підказки, за якими можна визначити, чи відео, яке ви переглядаєте, справді справжнє, чи щось підроблене.

Як виявити дипфейки та згенеровані відео

Обличчя виглядають не зовсім правильно

Технологія накладання обличчя однієї людини на іншу вражає, але вона далека від досконалості. У багатьох (якщо не в більшості) випадків дипфейк матиме явні ознаки підробки. Часто це виглядає як посередній фотошоп: обличчя не зливається з іншою частиною голови людини, освітлення не відповідає сцені, у якій він розгортається, і все це має неймовірний “ефект долини” — відчуття наче на екрані робот з людиноподібною маскою.

Якщо ви дивитеся відео, на якому відома особа говорить або робить щось суперечливе, подивіться на її обличчя. Це відео, на якому «президент Обама» говорить смішні речі, демонструє деякі недоліки. Цей глибокий фейк було зроблено шість років тому, але він демонструє деякі помітні візуальні недоліки. 

Рот рухається несинхронно мовленню 

Ще один недолік сучасної технології deepfake полягає в тому, що вона намагається зіставити рухи рота фальшивого обличчя з основною промовою, особливо якщо мова також є штучною.

Подивіться на цей глибокий фейк Андерсона Купера з минулого року: фальшиве обличчя більш реалістичне, ніж відео Обами вище, але рухи губ не відповідають промові, яку виголосив Купер. Водночас дедалі більше розвивається технологія ліпсинку (синхронізації руху губ з текстом), тому це підійде тільки для аматорських фейків. 

Шукайте збої та артефакти

Як і генератори зображень штучного інтелекту, відеогенератори штучного інтелекту створюють відео з дивними збоями та артефактами. Ви можете помітити мерехтіння листя на дереві, коли камера рухається до них, або людей, які ходять на задньому плані з іншою частотою кадрів, ніж у решті відео. Хоча, на перший погляд, відео нижче здається реалістичним, воно повне таких збоїв, особливо на деревах. (Також зверніть увагу, як постійно зникають машини на дорозі ліворуч.)

Діпфейки також часто мають жахливу якість. Це навмисне, щоб замаскувати недоліки відео. Більшість глибоких фейкових відео миттєво видали б себе, якби вони були представлені в 4K, оскільки відео високої роздільної здатності підкреслило б усі їхні вищезгадані недоліки. Але коли ви знижуєте якість, стає легше приховати ці недоліки, а отже, легше змусити людей повірити, що відео справжнє.

Фізика не працює 

Відеокамера зафіксує світ таким, яким він є, принаймні так, як здатні об’єктив і сенсор камери. Відеогенератор AI, з іншого боку, створює відео на основі того, що він бачив раніше, але без будь-якого додаткового контексту. Воно насправді нічого не знає, тому заповнює прогалини якомога краще. Це може призвести до хиткої фізики у відео, створеному штучним інтелектом.

Sora наприклад, згенерувала відео церкви на скелі уздовж узбережжя Амальфі. На перший погляд це виглядає досить переконливо. Однак, якщо ви зосередитеся на океані, ви побачите, що хвилі насправді віддаляються від берега, у протилежному напрямку, у якому вони повинні рухатися.

Приклад згенерованих відео

Занадто багато кінцівок

Моделі штучного інтелекту, які створюють цей відеоконтент, встановлюють зв’язок, що кінцівки рухаються між кадрами, але не зовсім розуміють, що це мають бути ті самі кінцівки по всій сцені.

Ось чому ви побачите руки, ноги та лапи, які з’являються та знову з’являються протягом усього відео. Хоча це не відбувається постійно, ви можете побачити це в цьому відео: коли «камера» відстежує, як жінки йдуть вперед, третя рука хитається перед нею, видно між її лівою рукою та лівим боком. Це непомітно, але це те, що можуть робити відеогенератори ШІ.

Речі просто не мають сенсу

Ці моделі насправді нічого не знають: вони просто намагаються відтворити підказку на основі набору даних, на якому їх навчали. Вони знають, наприклад, що в місті на узбережжі повинно бути багато кам’яних сходів, але вони, здається, не розуміють, що ці сходи мають кудись вести. У демонстраційному відео OpenAI багато з цих сходів розміщені хаотично, без реального призначення.

У цьому ж відео подивіться на «людей» у натовпі. Спочатку може здатися, що містом прогулюється купа туристів, але деякі з них зникають безслідно. Деякі виглядають так, ніби вони йдуть вниз, але вони не користуються сходами в нікуди: вони просто «йдуть вниз» по рівній землі.

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
18
Icon 8
Коментарі
Залишається питання: чи навчимося ми критично мислити швидше, ніж ШІ навчиться генерувати бездоганні відео?
Але що з відповідальністю? Якщо раніше відео було одним із найпереконливіших доказів, то зараз воно може стати ще одним інструментом дезінформації?! Дуже тонкий лід...
Іван Демянко 04.03.2025, 04:14
Якщо ми не розробимо чіткі механізми перевірки правдивості відео, це може стати серйозним викликом для медіа, бізнесу і тд. В епоху deepfake справжня проблема — не те, що можна згенерувати будь-що, а те, що можна поставити під сумнів будь-яку правду
Polina Zagrebelna 04.03.2025, 02:11
Ой, щось мені підказує, що скоро доведеться підписувати не лише документи, а й відео: "Я, свідомий громадянин, підтверджую, що це відео справжнє і не було згенероване ШІ"
Ганна Цапко 04.03.2025, 12:16
Раніше казали: "Не вірю, поки не побачу". Тепер: "Не вірю, навіть якщо бачу". Дякую АІ за новий рівень недовіри до реальності(((

Підписуйтеся на наші соцмережі

Інші матеріали

СЕС для бізнесу: як уникнути помилок на етапі проєктування?

Антон Березинський 25 квітня 2025 09:00

Лайфхаки для українців за кордоном: як легко повернути читання у своє життя

Валерій Старик 3 години тому

Вкрадена Батьківщина: історія загубленого покоління

Валерій Старик 3 години тому

​Рекомендація книги «Sapiens: Людина розумна. Коротка історія людства» Юваля Ноя Харарі

Валерій Старик 3 години тому

Що таке індивідуальна податкова консультація та як її отримати ФОП?

Inna Sharova 25 квітня 2025 15:30