Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Що таке Small Data (малі дані) і чим вона може допомогти бізнесу

Cергій Гузенко
Cергій Гузенко Owner, CEO at WEZOM
25 листопада 2022 9 хвилин читання

Якщо ви високий, то хоч раз у житті страждали через незручні сидіння в автобусах та літаках. Якщо ви невисокий, то могли мати проблеми з найвищими полицями в супермаркетах. Так відбувається тому, що речі навколо нас фактично розроблені під середній людський зріст — приблизно 170 см. Аналогічно працює і більшість бізнесів, більшість виробництв — вони орієнтуються на усереднений портрет свого споживача, залишаючи всі інші кейси «за бортом».

Такий підхід ідеально вписується в гучний і модний тренд Big Data: робота з великими масивами даних допомагає легко визначити ключові характеристики споживача, найважливіші проблеми і тренди ринку, а потім сфокусуватися саме на них. Але є сценарії, де такий підхід буде недостатнім чи хибним. У реальних завданнях бізнесу та організаціям часто недоступні великі дані, або їх просто недостатньо для розв'язання проблеми. Тож поряд з Big Data виник і дзеркальний тренд — Small Data.

Що таке Small Data

Усі визначення Small Data наразі дуже розмиті, хоча дещо ключове в них виділити можна. Для цього нам потрібно буде ще раз поглянути на Big Data.

Отже, Big Data характеризується величезними обсягами, високою швидкістю надходження, різнорідністю та неструктурованістю. Ефективно обробляти великі дані вручну неможливо, тому що їх занадто багато. Відповідно, Small data — це дані малого обсягу, які часто збираються повільно та потребують окремих зусиль для накопичення. Часто це дані малої вибірки, ретельно відібрана підмножина з великого масиву даних.

Умовно кажучи, Big Data — це лавина з даних, яка мчить на аналітика з величезною швидкістю. А от Small Data доводиться ретельно збирати або фільтрувати по краплі. Наприклад, у медицині та прикладних наукових дослідженнях невеликі вибірки — не рідкість.

Якщо про можливості та методи Big Data сьогодні говорять усюди, то про Small Data можна почути набагато рідше. Адже вміння працювати з «малими даними» анітрохи не менш важливе — у бізнес-аналітиці, у науці, у маркетингу, у галузі ШІ та машинних алгоритмів.

Якими можуть бути практичні кейси використання Small Data?

  • У виробництві: прорахунок вартості товару, створюваного під індивідуальне замовлення; пошук дефектів у виробничих лініях.
  • У проектуванні та промисловому дизайні: спрощення розроблення унікальних продуктів/проектів під специфічні завдання.
  • У медицині: автоматичне оброблення рентгенівських знімків для ідентифікації пухлин.
  • У видобувній промисловості: аналіз геологічних даних для пошуку, наприклад, нафтоносних пластів.
  • У маркетингу: аналіз поведінки та цінностей споживачів, прогнозування попиту.

У таких галузях масиви Big Data доступні далеко не завжди. Але й великі банки даних часто не можуть дати бажаного результату, особливо коли практична проблема стосується пошуку рідкісних дефектів, статистичних аномалій, діагностування рідкісних захворювань.

Підписуйтеся на наші соцмережі

Big Data vs Small Data

Аналітика Big Data зводиться до того, щоб здобути цінну інформацію з величезних масивів неструктурованих даних. Small Data вирішує протилежну проблему: як здобути інформацію з малого обсягу. Технічно таке завдання потребує окремих алгоритмів, окремої експертизи data-фахівців та окремої методології збору та підготовки даних.

Минулі два десятиліття стали епохою Big Data. Цифрові накопичувачі та обчислювальні потужності ставали з кожним роком дедалі більш ємними, більш потужними та більш дешевими, що дало змогу збирати та обробляти величезні інформаційні масиви. Ми стали свідками народження величезних нейромереж, які успішно вирішують різні завдання: від автоматичного перекладу до генерації зображень за текстом.

Щодо Small Data, то технічно працювати з нею простіше. Вона не вимагає гігантських хмарних сховищ та значних обчислювальних потужностей. Для зберігання та обробки SM, як правило, достатньо одного ноутбука, а аналіз можна проводити ледь не в Excel, були б лише потрібні навички.

Насправді принципи Big Data та Small Data не суперечать один одному й чудово поєднуються. Наприклад, репрезентативна вибірка для Small Data може формуватися на основі аналізу Big Data. Або зібрана за допомогою Big Data інформація про поведінку користувачів може доповнюватися і збагачуватися «польовими» маркетинговими дослідженнями, що фактично і є однією з практик SD.

Small Data у маркетингу

Одним із головних популяризаторів терміна Small Data є данський маркетолог Мартін Ліндстром. Найпопулярніша його книга так і називається «Small Data: маленькі ключики до розуміння великих трендів».

На його переконання, Big Data допомагає зрозуміти вплив кількісних показників на поведінку покупців. Але емоційний зв'язок зі споживачами бренд може завоювати лише одним способом — через збирання «маленьких фактів», через спостереження та спілкування з людьми. У таких фактах криються неочевидні закономірності, приховані потреби та прагнення. «Маленький факт» сам собою нічого не означає, але в поєднанні з іншими даними дає змогу ухвалювати унікальні маркетингові рішення.

Підхід Ліндстрому вважається «детективним» і навіть антропологічним. У своїй роботі з консультування брендів він намагався насамперед поставити себе на місце споживача, побачити світ його очима. Для цього він провів інтерв'ю з тисячами людей по всій земній кулі, вивчав їх побут та повсякденну культуру.

Ясна річ, дуже мало компаній можуть дозволити собі подібну ретельність. Але це найяскравіша ілюстрація підходу Small Data: деталізований збір та аналіз клієнтського досвіду, у найширшому сенсі цього слова.

Більшості бізнесів не обов'язково настільки докладно вивчати свого споживача, спершу можна зібрати дані більш простими способами: анкетування, інтерв'ю, маркетингове дослідження з фокус-групами, розгорнуті відгуки, будь-які інші інструменти зворотного зв'язку. Навіть найпростіші механізми, на кшталт особистого опитування чи рекомендацій допомагають бренду виловити «баги» в клієнтському досвіді.

Small Data в Data Science

Авторитетний ентузіаст ШІ та засновник команди Google Brain Ендрю Енджі (Andrew Ng) багато говорить про те, що найближчими роками Data Science та машинне навчання зроблять поворот назустріч Small Data. Адже 50 добре підібраних зразків даних дозволяють навчити ШІ не гірше, ніж мільйон «сміттєвих» зразків.

У минулі роки фокус спільноти розробників ШІ був «моделецентричним», тобто націленим насамперед на розроблення, налаштування та покращення машинних алгоритмів під різні завдання (аналіз тексту, розпізнавання зображень, голосу, etc). Цей підхід дав плоди в різних областях. Але нескінченного покращення алгоритмів недостатньо.

Енджі переконаний, що для розкриття всього потенціалу ШІ настав час сфокусуватися на якості даних, а не на їх обсягах та методах обробки. Для подальшого розвитку технологій якість введення має відповідати якості перетворення моделі.

Яких конкретно розробок у цій галузі варто очікувати? Це насамперед зрушення до «малих та розумних даних». Розробці та вдосконаленню алгоритмів у перспективі приділятимуть трохи менше уваги, натомість фокусуючись на методах відбору ввідних для моделі — на маркуванні та «нарізанні» зразків, щоб зробити їх справді корисними.

Енджі виділяє два ключові напрями такого розвитку:

  • Розробка інструментів для пошуку невідповідностей у даних. Такий пошук не має проводитися вручну, його операції мають бути послідовними та прозорими для дослідника.
  • Експертний аналіз та досвід із предметної галузі. Правильно та повноцінно класифікувати дані зрештою допоможуть експерти зі сфери, у якій ці дані збираються. Наприклад, залучення data-фахівців до роботи зі Small Data у медицині недостатньо — необхідні медики, які розуміють контекст і обмеженість вибірки.

Зрушення до Small Data може серйозно вплинути на data science. Воно відкриває двері до розв'язання численних проблем, які не піддавалися вирішенню через нагромадження величезних інформаційних масивів. Small Data також допоможе формувати високоякісні набори даних для навчання ШІ.

Майбутнє Small Data

Поступ від Big Data до Small Data стане важливим етапом подальшого «дорослішання» IT. Інструменти просунутого автоматизованого data-аналізу вийдуть за рамки великих бізнесів та кордони Силіконової долини, стануть більш доступними, більш «народними». Їх ефективно зможуть використовувати малі та середні бізнеси, незалежні команди науковців та розробників. Приблизно так, як сьогодні всі звикли користуватися хмарними сервісами: це може бути додатковий аналітичний модуль у комерційній CRM, чи навіть просте в користуванні розширення для браузера. 

Водночас Small Data не скасує комплексний тренд Big Data, а швидше доповнить його. Якщо компанії доступні «великі дані», то підходи SM дозволять вивільняти з величезного масиву даних у рази більше цінної інформації. Якщо можливостей Big Data немає, нові інструменти Data Science допоможуть вирішувати практичні завдання навіть в умовах обмежених ресурсів. Мабуть, це саме те, що потрібне українському бізнесу тут і зараз. Та і взагалі, будь-якому бізнесу.

Підписуйтеся на наші соцмережі

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Прокоментувати
Інші матеріали

Інтерв’ю з Сергієм Леськом, IT-директором OKKO

Олександр Тартачний 29 хвилин тому

Топ-5 помилок біздева на міжнародній конференції

Maksym Boronenko 12 годин тому

Meta заборонили тренувати моделі ШІ на даних бразильських користувачів

Вікторія Рудзінська 16 годин тому

У Києві відбудеться конференція «Навігатори інновацій. Змінюй правила гри»

Ольга Топольська 17 годин тому

Ринок Перської затоки для українського ІТ: що потрібно знати

Анатолій Моткін 3 липня 2024 05:53