Тарілку — у портал. Як Fozzy Group розвиває власний ШІ та до чого тут Tesla й американські військові
Як досвід Tesla та їхніх конкурентів у розробленні систем для безпілотних авто допомагає штучному інтелекту від Fozzy Group правильно рахувати вареники у порції.
Завдяки ChatGPT 2023-й можна вважати роком, коли штучний інтелект вперше пішов у мейнстрім: від написання коду до SMM та інтеграції у пошукові системи. Але нейромережі використовують і більш традиційні бізнеси, іноді вкрай креативно.
Група компаній Fozzy почала тестувати власний ШІ Kissa AI (назва — відсилання до котиків, аватар у ШІ рудий та пухнастий) у 2021 році. Сьогодні ШІ-портал повноцінно працює у кафе «Кантін» на Лівому березі Києва.
SPEKA поспілкувалася з керівником «Лабораторії Зі», R&D-підрозділу TemaBit Fozzy Group Андрієм Янбухтіним про те, як рішення виросло від деревʼяної рами та трьох камер, які ще ШІ-технології використовують у «Сільпо» та чому формат «безкасового» Amazon біля дому не наша опція.
«Сільпо», TemaBit, Fozzy Group — про що йдеться та хто саме у групі компаній займається ШІ
Ми підрозділ компанії TemaBit. Це IT-компанія, яка входить до складу Fozzy Group та займається інсорсинговими завданнями, що повʼязані з IT, підтримкою, ПЗ тощо.
TemaBit
Засновники: Володимир Костельман, Роман Чигір, Олег Сотников
Кількість співробітників: 1000+
Географія офісів: Київ, Вінниця
TemaBit Fozzy Group — «ІТ-дочка» Fozzy Group, яка виросла з невеликого підрозділу у складі групи. Команда TemaBit Fozzy Group розробила понад 80% ПЗ для бізнесів групи — «Сільпо», «Фора», Thrash!, Justin, Fozzy, логістики тощо.
У сфері ШІ компанія запустила проєкт з розпізнавання продуктів у кафе Kissa AI та провела Hack4Retail — перший хакатон Data Science в українському ритейлі.Також TemaBit відкрила R&D-центр штучного інтелекту та інновацій «Лабораторія Зі», серед проєктів якого автоматизоване рішення з аналізу відгуків гостей у соцмережах.
Наш R&D-підрозділ працює за двома ключовими напрямами:
– поточними завданнями з прогнозування та аналітики;
– чистим R&D. Ми намагаємося зазирнути за горизонт і побачити, які технології зможемо адаптувати та використати у найближчі 2-5 років. Тут ми здебільшого тестуємо та перевіряємо гіпотези.
Якими напрямами ШІ займається TemaBit
Computer vision. Це фотографії, картинки, відео та робота з оптичними обʼєктами. У нас працює кафе «Кантін» у бізнес-центрі Silver Breeze. Доступ до кафе мають не лише співробітники «Сільпо», але й просто гості, що зголодніли. Позаочі ми називаємо його їдальнею — це формат швидкого ресторану: берете тацю, самі обираєте страви, потім ставите тацю у так званий портал, де ШІ розпізнає ваше замовлення і виставляє ціну.
SPEKA протестувала портал у «Кантін»
Як працює штучний інтелект Kissa AI від Fozzy Group
Наш ШІ-проєкт має назву Kissa. Спочатку це був першоквітневий жарт, але назва так зайшла, що ми вирішили її залишити. Наш ШІ навіть візуалізований у вигляді котика.
Зону, де відбувається розпізнавання продуктів, ми назвали портал, адже у нашій уяві це вікно у майбутнє, як у фантастичних фільмах. Без фантастики у нашій сфері ніяк.
Тестуємо Kissa AI в кафе «Кантін»
Людина ставить тацю у портал — це конструкція з підсвіткою та камери. Камера робить знімок, що потрапляє до нейромережі. Нейромережа визначає та класифікує страви на таці гостя. Ми підсвічуємо на екрані, які страви обрав гість, їхню порційність тощо.
Алгоритм доволі складний: ми рахуємо пельмені, площу пюре на тарілці, щоб визначити, порція це чи половина порції, і виводимо суму на екран гостеві.
Гість має змогу розрахуватися телефоном, застосунком «Сільпо» або карткою. Отримує чек і йде обідати. Все відбувається в автоматичному режимі, час на класифікацію страв — приблизно 2-3 секунди.
Скільки працювали над проєктом Kissa і з чого він починався
У систему Kissa натепер майже 200 страв і стільки ж SKU. Точна кількість змінюється залежно від сезону.
Коли все тільки починалося, у команді було кілька людей: ми носили з їдальні борщі на тацях і вчили нейронку визначати, з якою стравою вона має справу. На першому порталі ми встановили три камери. Зараз використовуємо 1-2.
Скільки камер потрібно ШІ? Залежить від того, як стоять продукти на таці. Додаткова камера дозволяє побачити продукт з іншого ракурсу, якщо даних з першої камери бракує.
З якими проблемами зіткнулися на старті? Головна складність полягала в тому, що ми створювали своє рішення з нуля. Звісно, у світі були аналогічні рішення, зокрема, у китайців, але вони привʼязувалися до тарілок певного розміру: тобто кожну страву треба було класти в окрему тарілку. Але ж ми так не любимо: треба скласти в одну тарілку пюре, котлету, підливу та салат. І ШІ повинен був визначити, що там таке під усією цією підливою.
Наскільки точно Kissa AI визначає страви? Сьогодні точність упізнавання більшості наших страв сягає майже 98%.
Як у Fozzy Group зменшують вірогідність помилок
- Ми зробили екран інтерактивним, щоб у разі помилки з боку ШІ гість міг за два кліки змінити порцію на половину порції. Адже підливка чи пюре залежно від руки кухаря може займати різний обсяг. Нагадаю, порцію/пів порції наш ШІ визначає за обсягом, не за вагою.
- Коли змін.ється дизайн певного товару, наприклад, пляшки «Моршинської», ми одразу завантажуємо фотографії нового дизайну у систему і донавчаємо таким чином нейронку.
Чому перенавчити нейромережу — це так само погано, як недонавчити
Коли ми тільки починали, то думали: що більше даних — то краще, але зрештою зупинилися на золотій середині. Адже існує таке поняття, як перенавчити нейромережу, коли вона має так багато інформації, що починає помилятися через її надлишок.
Нейромережа нагадує дитину. Дитина, навіть маленька, з легкістю відрізнить собаку від кота. Але якщо показати їй собаку незвичної породи, яку та ніколи не бачила, і вимагати точно назвати породу, це дитину заплутає.
Які світові аналоги проєкту вивчали
Ми орієнтуємося на досвід Amazon GO та його рішення, які дозволяють ШІ визначати, скільки гість узяв товарів у магазині, і дають розплатитись без каси та без касира.
Чому лише вивчаємо, а не реалізуємо? Бо це рішення чудово підходить для невеликих магазинів, а для великих супермаркетів, як «Сільпо», це невиправдано дорого.
Штучний інтелект та робота з текстом — проєкт Message Tagger
У напрямі роботи з текстом ми також маємо успішний проєкт — Message Tagger. За допомогою програмного продукту YouScan парсимо соцмережі, аналізуємо отриману інформацію за допомогою наших алгоритмів, розмічаємо за хештегами та віддаємо в роботу відповідним підрозділам.
Раніше ці тексти читали експерти, а потім розподіляли завдання — провести взаємодію з гостем, врахувати скарги чи пропозиції. Тепер це робиться автоматично на основі алгоритмів нейромережі. Ці рішення використовує і наш маркетинг, і операційна дирекція.
Ми також навчилися розуміти емоції, йдеться саме про складні лінгвістичні моделі, а не, скажімо, лайку, яку легко визначити. А у перспективі плануємо використовувати ці рішення для формування на основі ШІ відповідей нашим гостям.
Навіщо Fozzy Group вирішила розробляти власний ШІ
Щоб зробити зручніше, швидше та дешевше і собі, і гостям. Візьмемо за приклад касу самообслуговування. Щоб пробити товар, нам треба відсканувати штрихкод, і дуже засмучує (мене так точно), коли ми беремо пляшку пива за горлечко, безуспішно шукаємо штрихкод і лише згодом розуміємо, що він був, власне, на горлечку.
А технологія Computer Vision дозволяє без штрихкода визначити, що це за товар, SKU, та пришвидшити обслуговування наших гостей.
ШІ-алгоритми допомагають визначити, які покращення справді потрібні покупцям
ШІ дозволяє нам питати у гостей “Як би ви хотіли?”, а також помічати, що їм насправді потрібно. Адже якщо запитати, ми отримаємо купу нерелевантних відповідей або таких, що неможливо реалізувати.
Яскравий приклад ефективного покращення: думаю, кожного з нас дратує за використанні самокаси постійне “проскануйте товар, поставте товар на ваги”. Ці голоси, що лунають одночасно від декількох систем самообслуговування, спричиняють головний біль. Доки проскануєш 20 товарів, вийдеш з магазину з головою, що тріскається, мов яйце-райце.
Ми помітили дискомфорт наших гостей, проаналізували ситуацію, і натепер у магазинах «Сільпо» вже немає вагового контролю. Я можу підійти до каси з двома однаковими пляшками пива, просканувати одну з них двічі, нікуди не ставлячи ці пляшки, оплатити свою покупку та спокійно вийти з магазину.
Таким аналізом у нас вже займається штучний інтелект. Ми аналізуємо патерни: що саме гості купують і де, як це відбувається тощо, які проблеми у них виникають. На основі цього формуємо рішення та персональні пропозиції.
Чому не варто забивати цвяхи мікроскопом, а ШІ пхати у кожне рішення
Важливо розуміти, що штучний інтелект — це не панацея. Якщо вам потрібен результат на рівні підрахунку в Excel, навіщо залучати ШІ? Усе можна зробити набагато простіше. Навіть якщо ручний результат дає 80% за Паретто, а 20% додає ШІ, варто замислитися, чи потрібні тут ці 20%, а отже, штучний інтелект?
Ми працюємо з ШІ там, де йдеться про великі обсяги даних.
Ми надихаємося досвідом інших галузей (мені заборонили говорити «плагіатимо»). Багато чого навчилися у Ілона Маска та його безпілотних Tesla.
Так, вони навчилися визначати людину в динаміці — не просто силует, а також додавати маркер, що вона перебуває в русі і де буде на момент потенційного зіткнення. Я пішов до колег і запропонував використати це у нас. Вони відповіли: «Ідея класна, але от як ми змусимо котлету повзати по тарілці?». Ми посміялися, але саме цей приклад згодом допоміг нам знайти дуже елегантне рішення для іншої проблеми.
Ще один приклад: у нас була проблема з підрахунком вареників. Половина порції — 6 штук, повна порція — 12. Але що робити ШІ, якщо комусь на тарілку поклали сім вареників? Рішення знову прийшло з автосфери.
Існує таке поняття, як еліпсоїдна система у безпілотних авто — рішення для випадків, коли машина їде у дощ чи сніг. Для компʼютера кожна сніжинка чи краплинка дощу — окремий обʼєкт, і для ШІ це колосальне навантаження щодо оброблення даних. Що зробили конкуренти Tesla, які опрацьовували це питання?
Вони обʼєднали частину цих обʼєктів: умовно, декілька сніжинок в один еліпсоїд, щоб значно зменшити навантаження на обчислення кожної. Врешті точність за паркуванні погіршилася на 5 см, але вимоги до обчислювальної потужності компʼютера, що працював би зі снігом та дощем, зменшилися на 80%. Ось такі рішення ми підглядаємо та використовуємо.
За ким зі світових новаторів варто спостерігати
Я захоплююся новими технологіями, рішеннями та підходами.
- Зокрема, вивчав, що робив у системах ШІ Андрій Карпатний, який був провідним спеціалістом у Tesla.
- Щодня крізь мене проходить маса YouTube-каналів, які присвячені технологіям. Багато цікавого є на GitHub, я стежу за Tesla, SpaceX, NASA.
- Також саме щодо R&D та бізнесових підходів я стежу за тим, що робить DARPA (так, саме та DARPA, яка насправді придумала інтернет). Це державна компанія, її співробітники отримують удвічі менші зарплати, ніж у комерційних структурах, але вони фанатіють від своєї справи. Як на мене, в R&D вони зараз найкращі у світі.
Загалом я стежу не за брендами, а за ідеями та підходами, навіть якщо вони не повʼязані безпосередньо з ШІ. Я цим живу.