Боротьба із семплінгом даних в Google Analytics 4 та побудова атрибуції. Кейс Promodo та АНЦ
Передісторія, без якої не обійтися
До початку нашої роботи з АНЦ вже була налаштована Google Analytics 4, але під час її використання вони зіткнулись з проблемою семплінгу даних.
Що таке семплінг в аналітиці? Семплінг даних у Google Analytics 4 означає використання вибіркових даних для аналізу замість повного набору. Цей термін можна пояснити на прикладі яблуневого саду. Уявіть, що там росте 100 яблунь. Щоб порахувати вражай, можна окремо порахувати яблука на всіх 100 яблунях, а можна порахувати на 10-ти — і кількість помножити на 10. Значення буде приблизне, але результат ви отримаєте вдесятеро швидше. Це і є семплінг.
Для оптимізації своїх потужностей Google аналізує вибіркові дані, це впливає на точність аналізу та може не повною мірою відобразити реальну картину поведінки користувачів. Результат — прийняття неефективних маркетингових рішень.
Існують два види семплінгу:
-
1
Коли відображаються змодельовані метрики: наприклад, транзакції, кількість користувачів тощо. Система бере вибірку та моделює ці метрики.
-
2
Коли скорочується кількість за певним показником. Система, замість повного відображення даних, показує тільки дані найпопулярніших серед користувачів місця, відвідуваної сторінки, товару тощо, а інші дані «ховає» у рядку Other.
АНЦ зіштовхнулися з обома. До того ж команда бренду продовжували слідкувати за даними з Universal Analytics. А оскільки у 2024 році доступ до інтерфейсу, даних та API Universal Analytics мали закрити (на момент початку співпраці, вони ще були у доступі), історичні дані ми мали вивантажити та обʼєднати з даними GA4 в окремому автоматизованому звіті, який дозволить відстежувати повну картину.
Отже, до справи
Для початку ми налаштували збір всієї інформації, що надходить з сайту та рекламних кабінетів АНЦ. Для цього використали Google BigQuery. Оскільки для GA4 вже існує вбудована інтеграція цього сервісу, це рішення дозволяє експортувати сирі дані з ресурсу напряму до хмарного сховища.
Підписуйтеся на наші соцмережі
Для АНЦ ми обрали варіант за допомогою API, оскільки цей спосіб дозволяє автоматизувати процес отримання даних, забезпечуючи швидкий і гнучкий доступ до великого обсягу інформації. Надалі це рішення дає можливість інтегрувати дані з іншими системами та застосунками для більш комплексного аналізу.
Весь процес експортування даних реалізувала команда Web-analytics Promodo за допомогою мови програмування Python.
Додатково налаштували експорт витрат з рекламних кабінетів Google Ads та Meta. Таким чином, ми зібрали для клієнта дані з різних джерел, з яких надалі можна будувати звіти різної складності через інструмент візуальної аналітики Power BI.
Обʼєднання всіх даних з усіх джерел
Щоб об’єднати дані з рекламних кабінетів АНЦ та й надалі збирати дані про витрати з регулярним оновленням у звітах, ми використали відкриті API Google Ads та Meta. Це дозволило автоматизувати моніторинг витрат та оперативно отримувати актуальну інформацію для аналізу та оптимізації рекламних кампаній.
При об’єднанні даних Universal Analytics та GA4 ми враховували розбіжності у метриках цих аналітичних систем. Оскільки вони використовують різні способи збору даних.
Наприклад, в Google Analytics 4 є сигнали, які розпізнають користувачів, що заходили на сайт під одним обліковим записом з різних пристроїв. Таким чином GA4 відобразить у звіті умовного користувача ivanov@promodo.com, який заходив на сайт і з телефону, і з ПК, як 1 юзер. В той час як Universal Analytics порахував би його як двох: 1 окремий юзер з десктопа, і 1 — з мобайла.
Побудова атрибуції
Для звіту АНЦ команда аналітиків Promodo використала атрибуцію за останнім кліком (або last non-push non-direct click). Ця модель дозволяє аналізувати ефективність каналів, окремих оголошень або рекламних кампаній, які призвели до конверсії.
У цьому випадку 100% цінності надається оголошенню, на яке натиснули останнім, та відповідному ключовому слову. У той час, як кампанії з верхньої частини воронки — націлені на впізнаваність бренду або формування попиту — можуть не отримати жодної цінності.
Попри те, що ця модель атрибуції зосереджена на максимізації кількості конверсій та для відстеження ефективності окремих оголошень або рекламних кампаній, важливо враховувати, що вона не дає уявлення про те, як інші маркетингові канали або кампанії могли вплинути на рішення користувача про конверсію.
Висновки та перспективи
В результаті співпраці команда АНЦ отримали готовий інструмент аналітики, який обʼєднує інформацію з двох Universal Analytics та GA4 без семплінгу та обмежень при формуванні звітів за потрібний період.
Всього було побудовано 7 звітів. Налаштовані звіти надалі можна допрацьовувати та доповнювати даними з CRM, ERP, служб доставки та інших джерел відповідно до потреб клієнта.