Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Нейромережі навчилися перетворювати текст на реалістичні зображення. Що вміють Google Imagen та DALL-E 2 і чому це небезпечно

Роман Судольський
Роман Судольський Журналіст
30 травня 2022 4 хвилин читання

Минулого тижня компанія Google презентувала проєкт Imagen. Це система штучного інтелекту, яка вміє перетворювати текстові описи на реалістичні зображення. 

Imagen вже друга професійна нейромережа, що працює за моделлю text-to-image. У майбутньому подібні системи можуть взяти на себе значну частину роботи дизайнерів та художників. SPEKA розповідає, що вміють такі нейромережі та які етичні проблеми вони порушують.

Як працює Imagen

Моделі штучного інтелекту text-to-image здатні розуміти зв'язок між зображенням і словами, які його описують. Оператор мережі задає текстовий опис, а система генерує зображення на основі власної інтерпретації тексту. Нейромережа здатна поєднувати різні об'єкти, атрибути та стилі. За заданим описом «фотографія собаки» система створює реалістичне зображення, яке виглядатиме як справжнє фото. Але якщо змінити опис на «собака, намальована олійною фарбою», зображення буде схожим на живопис.

У Google стверджують, що нова модель перетворення тексту на зображення Imagen має «безпрецедентний ступінь фотореалізму і глибоке розуміння мови». Ось декілька прикладів заданих текстових описів і зображень, які Imagen створив на їхній основі. 

Автори технології також розповіли про механіку створення нових креативів. Розібравши текстовий опис, Imagen генерує зображення розміром 64 x 64 пікселі, а потім виконує два послідовні покращення і створює зображення розміром 1024 x 1024 пікселі.

Детально роботу алгоритмів Imagen дослідницька команда розібрала у науковій роботі.

Google vs OpenAI

Google Imagen — друга професійна нейромережа, що працює за моделлю text-to-image. У 2021 році компанія OpenAI, одним зі співзасновників якої є Ілон Маск, продемонструвала можливості власної нейромережі DALL-E. Ця система теж уміє створювати чи не всі зображення за текстовим описом.

Втім, результати роботи DALL-E були далекі від того, що користувачам хотілося б повісити собі на стіну. У квітні 2022 року компанія випустила друге покоління нейромережі DALL-E 2, яка вміє створювати у декілька разів більші та деталізованіші зображення.

Розробники з Google стверджують, що нейромережа Imagen здатна створювати реалістичніші зображення, ніж DALL-E 2. Вони створили інструмент DrawBench, який дозволяє порівнювати різні моделі text-to-image між собою. Порівняння показало, що Imagen переважає DALL-E 2 і в якості зображень, і у відповідності між описом і зображенням.

Що може піти не так

Натепер нейромережа DALL-E 2 доступна розробникам на спеціальній платформі, на яку можна потрапити лише за інвайтом від OpenAI. Google теж не поспішає відкривати можливості Imagen для широкого загалу. Річ у тім, що розробки моделей text-to-image порушують декілька етичних проблем.

По-перше, ці нейромережі використовують доступні невідсортовані масиви зображень з інтернету. Це призводить до того, що згенеровані мережею результати можуть містити ознаки соціальних, культурних і расових стереотипів, закладених у той чи інший невідсортований датасет. 

Крім того, існують сценарії несумлінного використання подібних технологій. Зловмисники могли б застосовувати їх для створення фейкових зображень, які виглядають як справжні. Умовно кажучи, можна задати моделі текст: «Фотографія українського військового, який катує полонених» — і система створить реалістичний фейк.

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 1 годину тому

На ШІ-пошук у Google потрібно вдесятеро більше електроенергії, ніж на звичайний

Олеся Дерзська 3 години тому

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Олеся Дерзська 5 годин тому

Meta демонструє ШІ-інструмент 3D Gen для швидкої генерації текстурованих 3D-моделей

Вікторія Рудзінська 21 годину тому

Figma тимчасово вимикає функцію ШІ через проблеми з копіюванням дизайнів

Вікторія Рудзінська 22 години тому