Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.
preview
Назарій Присяжнюк
Назарій Присяжнюк
29 серпня 2023 13 хвилин читання

Від таблички в Excel до петабайтів. Інтерв’ю з Михайлом Кольцовим про big data та датааналітику

У сучасному цифровому світі оброблення і аналіз великих обсягів даних, відомих як big data, стають дедалі важливішими. Світ перейшов від аналізу таблиць в Excel до роботи з петабайтними даними, а це змінює і підхід до датааналізу, і можливості, які він надає. 

SPEKA поговорила з Михайлом Кольцовим, який стояв біля витоків датааналізу в Україні, щоб дізнатися:

  • Що таке бігдата і що вона дозволяє побачити.
  • Як датааналітика впливає на малі та великі компанії.
  • Найпопулярніші ресурси для датааналітиків.
  • Скільки коштує зібрати сервер для аналітики.
  • Вплив ШІ на датааналітику.
  • Перспективи датааналітики у найближчі 5 років.
  • Чи подешевшала датааналітика за останні 10 років. 

Що таке big data і що завдяки їй ми можемо побачити?

Спочатку слід визначити, що ми розуміємо під терміном «великі дані». Наприклад, ще десять років тому Excel-таблиця вважалася великими даними через потребу вручну обробляти дані. П’ять років тому вас вважали big data analyst, якщо ви працювали з мільйоном рядків.

Сьогодні нормально працювати з даними, які мають 200-300 млн рядків або обсягом 300 ГБ, завдяки поліпшеній інфраструктурі. З’явився окремий рівень датаінженера, який гарантує належну інфраструктуру та швидке оброблення даних, щоб аналітик міг працювати з чистими результатами.

Сьогодні термін «великі дані» використовують для об’ємів даних у петабайтах.

Особливо це стосується петабайтних даних, де обчислювальна потужність компенсує недоліки запитів. Якщо для гігабайтних даних ви можете допустити невеликі затримки, то на петабайтах це стає критичним, оскільки навіть невеликі перерви у роботі стають помітними. У результаті ви можете витратити на оброблення 80 годин, а можете 8, залежно від того, чи правильно напишете запити.

Можливість обробляти петабайти даних з’явилися завдяки новим моделям, що застосовують у комерційних сферах. Наприклад, великі дані корисні для розуміння уподобань клієнтів, зручності використання сайту та аудиторії, яку можна привернути. Великі дані мають великий комерційний потенціал, а інвестиції у інфраструктуру виправдовуються результатами.

SPEKA

Хто такий датааналітик у 2023 році? Що він робить?

Михайло Кольцов

Датааналітик — це той, хто перетворює масиви даних на інсайти. 

Роль датааналітики у компаніях

За останні 10 років роль датааналітики у компаніях дуже змінилася. Раніше багато компаній ігнорували аналітику та вважали, що вони можуть рухатися вперед, спираючись на інтуїцію. Проте сьогодні навіть невеликі компанії використовують датааналітику.

Став популярним є evidence-based approach, коли рішення ухвалюють на основі фактів і даних, а не на основі відчуттів.

A-B-тестування, аналіз даних з вебсайту, продажів та логістичних мереж допомагають ухвалювати обґрунтовані рішення.

Роль бігдати у великих компаніях

Великі компанії вкрай залежні від бігдати. Поточна інформація про масиви даних допомагає їм робити точні прогнози та адаптувати свою стратегію. Наприклад, «Київстар» використовує бігдату для боротьби із шахраями та для аналізу великих обсягів даних.

Роль бігдати у маленьких компаніях

Навіть маленькі компанії тепер не можуть обійтися без базової аналітики. Вони також використовують дані для ухвалення обґрунтованих рішень та адаптації до змін.

Чи вплинув на оброблення даних активний розвиток ШІ

Раніше для аналізу даних використовували статистичні моделі, але вони були обмежені використанням великих обсягів даних. На простих моделях, навіть наївних, можна було отримувати певні результати.

Підписуйтеся на наші соцмережі

З появою алгоритмів машинного навчання (МН) змінилося все. Алгоритми МН дозволили застосовувати більш складні математичні моделі, як-от методи паралельних мереж. МН стало необхідним елементом для досягнення кращих результатів в аналізі даних. 

Протягом останніх кількох років,великі обсяги даних зростали паралельно з розвитком більш оптимальних алгоритмів машинного навчання. Це сприяло зростанню якості аналізу даних.

Алгоритми МН можуть точніше передбачати результати за класичні статистичні моделі (КСМ), оскільки вони здатні виявляти більше чинників і залежностей у даних. Наприклад, у випадку моделі прогнозування банкрутства компаній, після застосування алгоритмів машинного навчання було виявлено більше 20 факторів, які допомогли покращити точність передбачень. За КСМ таких було лише 9.

Отже, розвиток ШІ і використання алгоритмів машинного навчання суттєво підвищили якість та достовірність аналізу даних.

У 2023 році датааналітика перестала бути безкоштовною

Це рік змін у підходах до аналізу даних. Досі власники вебсайтів могли користуватися Google Analytics безкоштовно, отримуючи доступ до своїх даних, працюючи з ними і завантажуючи великі обсяги інформації.

Але у 2023 році все змінилося. Тепер власникам доводиться платити за доступ до аналітичних інструментів через розширену інфраструктуру.

По-перше, вже не можна безкоштовно отримувати доступ до аналітичних засобів, як-от Google Analytics. З’явилася потреба платити за їхнє використання, оскільки підтримка та інфраструктура великі, вони вимагають витрат.

По-друге, з’явилася концепція збереження даних (data retention). Це означає, що унікальні ідентифікатори даних будуть видалені на певному етапі.

Раніше був міф, що інтернет все пам’ятає. У 2023 році інтернет навчився забувати.

Інтернет навчився забувати, і це відбувається через потребу видалення великих обсягів даних для збереження інфраструктури та оптимізації завантаження.

Це означає, що дані зберігаються на обмежений термін, наприклад, 14 місяців, після чого їх видаляють. Власники сайтів мають небагато часу, щоб використати дані максимально ефективно.

Класичні аналітичні моделі досі приносять результати, їх використання поки що не зупинили. Та якщо потрібні швидші та точніші результати, виникає необхідність переходу до алгоритмів машинного навчання.

Чи подешевшала датааналітика за останні 10 років

За цей період було дві різні тенденції. Для малих та середніх компаній обсяг даних, який їм потрібен, став доступнішим. За рахунок зниження вартості дисків та покращення інтеграції інструментів для аналізу даних цей сегмент здешевився. Такі компанії можуть використовувати аналітику для отримання інсайтів без значних витрат.

А для великих компаній аналітика подорожчала. Зростання обсягів даних та потреба у зберіганні і обробленні цих даних призвели до високих витрат на інфраструктуру. Розвиток нових технологій, як-от розроблення лінгвістичних нейромереж, криптовалют, також збільшив конкуренцію, наприклад, за відеокарти, зробивши вартість аналітики для великих компаній вищою.

Microsoft, Amazon і Google зіткнулися з високими витратами на розвиток та підтримку датаінфраструктури. Щоб утримувати її, вони вивчають різні підходи та розглядають можливості  максимальної оптимізації процесів.

Можна сказати, що для малих і середніх компаній датааналітика стала доступнішою, зокрема, завдяки дешевшим ресурсам та інструментам. Однак для великих компаній вона стала дорожчою через зростання обсягів даних та конкуренцію за обчислювальні потужності. Дедалі більше люди хочуть знати інсайти за межами стандартних метрів.

Які інструменти є найбільш популярними для датааналітиків

Набір інструментів майже не змінився. SQL був вам потрібен 10 років тому, але і зараз ви, навіть якщо працюєте з BigQuery, формуєте запит на SQL.

Найпопулярніші інструменти для датааналітиків:

  • SQL. Він залишається основною мовою для роботи з базами даних. Незалежно від того, чи ви працюєте зі стандартними базами чи великими обсягами даних, SQL є необхідним інструментом.
  • Python. Python є популярною мовою програмування для аналізу даних. Він має велику спільноту, що робить його відмінним вибором для аналітики. Python може бути використаний для розробки аналітичних фреймворків та обробки даних.
  • Bigtable. Для аналізу продуктових даних, створення дашбордів та візуалізації результатів корисним може бути використання інструментів, які дозволяють швидко створювати зручні та зрозумілі графіки і діаграми. Бігтейбл дозволяє це робити.
  • Опенсорс і кастомні рішення на Python або Go. Для більш динамічного середовища ви можете створювати власні рішення на Python або Go. Наприклад, Python можна використати для розробки аналітичних фреймворків, які потім візуалізуються з використанням інструментів, таких як Графана.
  • Геоаналітика з використанням Mapbox та Kepler. Якщо ви працюєте з географічними даними, Mapbox та Kepler або їхні аналоги допоможуть вам в аналізі та візуалізації даних на мапі.

Панацейного інструменту для датааналітики не існує

З власного досвіду: немає єдиного чарівного інструменту для всіх ситуацій. Ваш вибір інструментів повинен залежати від конкретних завдань та сфери діяльності. Комбінація різних інструментів часто є ключем до успішного аналізу даних. Тому ідеального списку інструментів немає.

Що чекає на бігдату у найближчі 5 років

Найважливішим напрямком  буде співпраця з лінгвістичними нейромережами. Наприклад, моделі, які включають ChatGPT, можуть надавати візуалізації та інсайти з даних АB-тестів всього за 10 секунд. Для датааналітика важливо навчитися правильно кооперуватися з цими моделями, оскільки вони вже виконують базову роботу аналітика. Проте інтерпретація залишається на людському рівні.

Зараз неможливо передбачити, чи замінять ці електронні помічники датааналітика. Ймовірно, навпаки, попит на датааналітику збільшиться, оскільки вміння працювати з масивами даних та приймати рішення на основі даних стають невід'ємними уміннями. Це тренд, який не зупинити, і його розвиток вимагатиме нових людей та підходів.

Майбутнє датааналітики включатиме спеціалізацію: дата-інженери будуть відповідати за інфраструктуру, датааналітики готуватимуть дані та інсайти, а дата саєнтісти будуть вигадувати нові підходи до даних. Також буде відбуватися кросзмішування компетенцій, де люди можуть почати з одного напряму, але вчитимуться в інших сферах.

Сервер просто на кухні: чи важко його зібрати

У мене сервер і правда стоїть на кухні, прямо за стільчиком. Залежить від конфігурації, але можна зібрати досить потужний кластер за розумну ціну, за 100 тис. грн Такий кластер буде ефективно працювати та міститиме необхідне ПЗ.

Наприклад, можна використати NAS-сервер Synology зі швидкими дисками, який підтримує Python та SQL. Це дозволить запускати потрібні скрипти та операції. Ба більше, під час нашої розмови скрипт автоматично збирає необхідні мені дані, не обмежуючи мене в часі або потребі тримати комп'ютер увімкненим.

Яку максимальну кількість даних може обробити такий сервер

Як завжди, ці обмеження визначаються технічними можливостями, особливо обсягом доступної оперативної пам'яті. Це є ключовим обмеженням на наших серверах.

Процесорна потужність теж має свої обмеження, але їх частково компенсує використання швидких SSD дисків. Хоча і процесори не є найпотужнішими.

Але для більшості завдань, з якими я маю справу, обмеження щодо ресурсів вистачає. Що стосується більших обсягів даних, якщо вони виходять за межі моїх можливостей, я переношу аналіз до хмарних платформ, таких як BigQuery або Digital Ocean. Там я можу працювати з ними, але, звісно, це вже вимагає платежів за використання. Тому важливо обдумано підходити до вибору платформи для аналізу даних.

З чим корелюється ціна — з часом використання чи масивом даних 

Зазвичай тут відіграють роль дві речі. По-перше, якість ваших скриптів. Часто виникає проблема, коли скрипт має неправильно написані цикли або некоректні операції. Важливо уникати таких помилок та писати оптимізований код. По-друге, обсяг даних. Перетворення одного гігабайта даних може тривати від декількох до десяти секунд залежно від якості запиту та скрипта. Ці параметри стають взаємозалежними на великих обсягах даних. Наприклад, різниця у восьми секундах на оброблення 2000 Гб вже матиме велике значення.

Загалом швидкість оброблення даних на менших обсягах не є вирішальною, але збільшується і стає значущою за зростанні обсягів. Таким чином, якість коду та обсяг даних об‘єднуються під час вартісного аналізу.

Підписуйтеся на наші соцмережі

0
Прокоментувати
Інші матеріали

Чи можна довірити ШІ вибір подарунків на новорічні свята

Анастасія Ковальова 17 годин тому

ChatGPT вирвався з-під контролю під час тестів

Анастасія Ковальова 18 годин тому

Google Photos представив нову функцію з підсумками року

Вікторія Рудзінська 7 грудня 2024 08:36

OpenAI запускає «12 днів OpenAI» з низкою анонсів

Вікторія Рудзінська 6 грудня 2024 20:34

Стало відомо, кого Трамп призначив відповідальним за ШІ та криптовалюту у США

Владислав Паливода 6 грудня 2024 13:54