Чи замінять нейромережі фотобанки та художників? Кейс DALL-E 2
Дизайнер компанії з розроблення програмного забезпечення Deephaven втомився шукати стокові фото для постів про абстракції програмування або замовляти їх у художників. Тому вирішив замінити усі обкладинки картинками, згенерованими нейромережею DALL-E 2. Розповідаємо про досвід компанії, поради щодо генерації контенту та знаходимо відповідь на запитання, чи стане DALL-E 2 заміною фотобанкам, художникам та Photoshop.
Що таке DALL-E 2?
Це модель машинного навчання, яку розробила компанія OpenAI. Вона дає змогу створювати зображення на основі текстових запитів. У липні 2022 року DALL-E 2 увійшов у бета-фазу і став доступним 1 млн запрошених зі списку очікування. Нейромережа генерує чотири картинки за одним запитом або три, якщо ви додаєте додаткову текстову підказку.
Як DALL-E 2 використовували у Deephaven?
За статистикою, повідомлення у блозі із зображеннями привертають увагу в 2,3 раза більше користувачів. Deephaven створює механізми запитів для потокових таблиць, тому їм складно підібрати релевантні зображення для технічних статей.
Також у них (як і багатьох інших компаній з розроблення ПЗ) часто немає ані часу, ані бюджету, щоб замовляти індивідуальні ілюстрації для кожного допису. Як розповідає дизайнер Дон МакКензі, раніше вони 10 хвилин шукали зображення, близькі до теми, та публікували їх.
Згодом дизайнер витратив $45, щоб замінити 100 зображень для блогу на згенеровані нейромережею. Ось кілька його спостережень щодо продукування контенту за допомогою DALL-E 2.
10 спостережень щодо створення зображень за допомогою штучного інтелекту
1. Сформувати правильний запит складно, це завдання потребує креативності
Сформувати правильний текстовий запит для нейромережі, щоб отримати бажаний результат може бути доволі важко.
Для цього Дон МакКензі перечитував текст, робив примітки щодо усіх зображень, які спадали йому на думку під час читання, а також шукав зображення та логотипи, пов'язані з цими темами.
Наприклад, їхня нещодавня стаття анонсувала нову клієнтську бібліотеку на Go. Йому спала на думку ідея зробити ілюстрацію у вигляді блакитного ховраха (такий талісман є у мови програмування Go), який переглядає потоки табличних даних на кількох комп'ютерних моніторах.
Щоб зробити таке зображення, знадобилося п'ять спроб, і лише на четвертій він став блакитним.
Запит виглядав так:
Prompt: «a cute blue colored gopher with blue fur programming on multiple monitors displaying many spreadsheets, digital art».
2. Згодом ви будете створювати потрібні зображення швидше
Користувачі отримають 50 безоплатних кредитів під час реєстрації та 15 безоплатних кредитів щомісяця. Один кредит застосовується щоразу, коли вводять запит, і користувач генерує або додає слова у запит. На першому етапі бета-версії можна придбати додаткові кредити з кроком у 115 кредитів за $15.
Перші спроби отримати бажані зображення потребували від Дона МакКензі 6-7 запитів, але після написання сотень текстових запитів зазвичай вдається отримати те, що потрібно за 2-3 спроби.
3. Стилістичні модифікатори важливі для створення цікавих зображень
Якщо створити запит без вказівки конкретного стилю, то згенеровані зображення зазвичай досить безглузді. Вони будуть схожими на мультики або поганий колаж.
Додавання стилістичних елементів значно покращить результати. Є кілька порад:
- Варто додавати такі фрази, як «Кадр із ___ фільму», певну візуальну естетику або ім'я відомого художника.
- Дизайнер також додавав такі слова, як artstation, cgsociety, 4k і digital art, до багатьох обкладинок їхнього блогу. DALL-E також надає власні корисні підказки щодо запитів, які відображаються під час 10 секунд генерування картинки, показуючи приклади додавання стилів до ваших запитів.
4. Користуйтесь Reddit
Для натхнення та розуміння того, як краще сформувати запит, відвідайте r/dalle2.
Також є електронна книга, як краще формувати запити для DALL-E 2.
5. Можливо, вам знадобиться доопрацювати картинку у Photoshop
Часом нейромережа генерує картинки з безглуздим текстом. Тому деякі вдалі результати доводиться допрацьовувати у графічному редакторі, прибираючи зайве. Поки що невідомий спосіб зробити запит, за якого на зображенні точно не буде тексту.
6. Через фільтри нейромережа іноді вважатиме, що ви намагаєтесь створити заборонений контент
Дон МакКензі розповідає, що його кілька разів попереджали про порушення правил створення ілюстрацій. У такому випадку картинка не генерується. Наприклад, він хотів використати слово shooting (постріл) на позначення променя світла, що стріляє у небо. Також не створяться жодні зображення, якщо запит містить слово «кров», навіть якщо задум не пов'язаний із насильством.
OpenAI у себе на сайті розповідали, що навмисно зробили фільтри точнішими, щоб не дозволити DALL-E 2 генерувати контент, пов'язаний із насильством, протизаконними діями, порнографією та політичною діяльністю.
До речі DALL-E 2 не попереджає, яке саме стоп-слово використав користувач у запиті.
7. Згенеровані зображення можна згодом редагувати
Зображення можна завантажити повторно для редагування за допомогою штучного інтелекту. Також з ними можна робити типові операції з оброблення зображень (обрізати, створювати колажі і т. д.).
8. Важко згенерувати дуже конкретну кількість речей у зображенні
Нейромережа погано розуміє кількісні показники. Якщо потрібно два або три предмети на картинці, то ви їх отримаєте, але з великими числами все складніше. МакКензі намагався отримати дванадцять індиків, які перетнули фінішну лінію, але у результаті отримував від 4 до 20 штук. Якщо ввести запит, де будуть сотні об'єктів, то модель їх створить, але якість не завжди буде доброю
9. Нейромережі не витіснять людину у мистецтві
Наявність генератора зображень не зробить вас миттєво художником, так само як наявність фотоапарата не робить вас найкращим фотографом. Кураторство та оцінка того, що є мистецтвом або добрим зображенням, все ще функція людей.
Подібні побоювання були при появі Photoshop. Художники старої школи нарікали, що це вб'є галузь, зробивши малювання занадто легким. Але це просто інструмент, який цілком підійде і для художників.
10. Фотобанки згодом можуть зникнути
Хоча роль художника не скоро зникне, для фотостоків перспективи більш туманні. Нейромережа зробить використання зображень дешевшим, а графічним дизайнерам буде набагато простіше згенерувати основу для свого зображення та допрацювати її у Photoshop.