Нейромережі навчилися перетворювати текст на реалістичні зображення. Що вміють Google Imagen та DALL-E 2 і чому це небезпечно
Минулого тижня компанія Google презентувала проєкт Imagen. Це система штучного інтелекту, яка вміє перетворювати текстові описи на реалістичні зображення.
Imagen вже друга професійна нейромережа, що працює за моделлю text-to-image. У майбутньому подібні системи можуть взяти на себе значну частину роботи дизайнерів та художників. SPEKA розповідає, що вміють такі нейромережі та які етичні проблеми вони порушують.
![](https://images.weserv.nl/?w=715&we=1&n=-1&url=https%3A%2F%2Fnewspeka.fra1.digitaloceanspaces.com%2Fprod%2Fmedia%2F7941%2Fframe-15648-3.png%3Fv%3D1653904115)
Як працює Imagen
Моделі штучного інтелекту text-to-image здатні розуміти зв'язок між зображенням і словами, які його описують. Оператор мережі задає текстовий опис, а система генерує зображення на основі власної інтерпретації тексту. Нейромережа здатна поєднувати різні об'єкти, атрибути та стилі. За заданим описом «фотографія собаки» система створює реалістичне зображення, яке виглядатиме як справжнє фото. Але якщо змінити опис на «собака, намальована олійною фарбою», зображення буде схожим на живопис.
У Google стверджують, що нова модель перетворення тексту на зображення Imagen має «безпрецедентний ступінь фотореалізму і глибоке розуміння мови». Ось декілька прикладів заданих текстових описів і зображень, які Imagen створив на їхній основі.
Автори технології також розповіли про механіку створення нових креативів. Розібравши текстовий опис, Imagen генерує зображення розміром 64 x 64 пікселі, а потім виконує два послідовні покращення і створює зображення розміром 1024 x 1024 пікселі.
![](https://images.weserv.nl/?w=715&we=1&n=-1&url=https%3A%2F%2Fnewspeka.fra1.digitaloceanspaces.com%2Fprod%2Fmedia%2F7943%2Fscreenshot-2022-05-30-at-09-48-1.png%3Fv%3D1653904150)
Детально роботу алгоритмів Imagen дослідницька команда розібрала у науковій роботі.
Google vs OpenAI
Втім, результати роботи DALL-E були далекі від того, що користувачам хотілося б повісити собі на стіну. У квітні 2022 року компанія випустила друге покоління нейромережі DALL-E 2, яка вміє створювати у декілька разів більші та деталізованіші зображення.
Розробники з Google стверджують, що нейромережа Imagen здатна створювати реалістичніші зображення, ніж DALL-E 2. Вони створили інструмент DrawBench, який дозволяє порівнювати різні моделі text-to-image між собою. Порівняння показало, що Imagen переважає DALL-E 2 і в якості зображень, і у відповідності між описом і зображенням.
Що може піти не так
Натепер нейромережа DALL-E 2 доступна розробникам на спеціальній платформі, на яку можна потрапити лише за інвайтом від OpenAI. Google теж не поспішає відкривати можливості Imagen для широкого загалу. Річ у тім, що розробки моделей text-to-image порушують декілька етичних проблем.
По-перше, ці нейромережі використовують доступні невідсортовані масиви зображень з інтернету. Це призводить до того, що згенеровані мережею результати можуть містити ознаки соціальних, культурних і расових стереотипів, закладених у той чи інший невідсортований датасет.
Крім того, існують сценарії несумлінного використання подібних технологій. Зловмисники могли б застосовувати їх для створення фейкових зображень, які виглядають як справжні. Умовно кажучи, можна задати моделі текст: «Фотографія українського військового, який катує полонених» — і система створить реалістичний фейк.