Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Штучний інтелект в обробці документів: чому Gemini 2.0 лідирує у 2025?

Olena Sokol
Olena Sokol Machine Learning Engineer at Paysera
1
24 лютого 2025 4 хвилин читання
Штучний інтелект в обробці документів: чому Gemini 2.0 лідирує у 2025? зображення 1

У сучасному бізнесі ефективна обробка документів має критичне значення. У Paysera, міжнародній фінтех-компанії з понад 550 000 клієнтів, ми шукали інструмент для ефективного вилучення тексту з великих потоків документів. У цій статті проаналізуємо досвід та останні дослідження щодо потенціалу великих мовних моделей (LLM) у цій сфері.

З 2023 року ми тестували Google Document AI — сервіс Google для автоматичного розпізнавання та аналізу тексту в документах (PDF, скани, зображення). Наразі, це один з лідерів у цьому класі сервісів.

Google Document AI: переваги та недоліки

Переваги:

  • Ідеальний для шаблонних документів: Обробляє PDF-інвойси за 1–3 сек/стор. з точністю 99.8% (CER ≤0.2%).
  • Найкраща ціна серед конкурентів: Від $1 за 1000 сторінок (у 2 рази дешевший за Azure AI, Amazon Textract).
  • Підтримка рідкісних мов: 120+ мов, включаючи литовську, латиську, естонську.
  • Безпека для регульованих індустрій: Відповідність GDPR, HIPAA, ISO 27001. Дані обробляються виключно в інфраструктурі Google. Шифрування даних під час передачі та зберігання.

Підписуйтеся на наші соцмережі

Недоліки: 

  • Проблеми зі складно структурованими документами: CER (Character Error Rate) може зростати до 15–20% при обробці нестандартних таблиць або рукописних нотаток.
  • Обмежена масштабованість: Під час пікових навантажень API іноді повертає помилку "Model Overloaded" з очікуванням в черзі до 15 хвилин.
  • Потреба в кастомних пайплайнах: Для вилучення тексту з таблиць потрібна окрема модель, яка підтримує лише 50+ мов, що вимагає створення власних пайплайнів для рідкісних мов.

Gemini: чому ми перейшли на LLM? 

Дослідження Benchmarking Vision-Language Models on OCR in Dynamic Video Environments показало, що мультимодальні моделі, як Gemini, на 30–40% точніші за традиційні OCR у роботі з нестандартними документами.  Враховуючи обмеження Google Document AI, зокрема затримки у відповіді при високому навантаженні, необхідність налаштування додаткових пайплайнів для специфічних задач та порівняно високу вартість, стали ключовим аргументом на користь Gemini 2.0 Flash.

Gemini: переваги та недоліки

Переваги:

  • Найвища якість серед LLM: У тестах зі 1,477 кадрів із відео Gemini показала CER 0.2387 (у GPT-4o — 0.2378, але він у 2 рази повільніший). Вона легко аналізує складні сцени: текст поверх зображень, рекламні банери, рукопис.
  • Розуміння контексту: На відміну від Document AI, Gemini самостійно визначає, де в PDF-файлі знаходиться сума до сплати або IBAN, навіть якщо документ не структурований. 
  • Мультимодальність: Обробляє одночасно текст, зображення, скріншоти інтерфейсів.
  • Низька вартість: Значно дешевше за DocumentAI для скланих випадків.

Недоліки: 

  • Швидкість залежить від формату: Обробка зображень займає 1–2 секунди, а великих PDF (50+ сторінок)  може займати більше 1 хвилини, що повільніше за Document AI.
  • Необхідність точних інструкцій (prompt engineering): Для уникнення галюцинацій потрібні чіткі інструкції.

Порівняльна таблиця

Критерій
Google Document AI
Gemini 2.0 Flash
Точність (CER)
≤1% (шаблонні PDF) / ≤20% (неструктуровані)
≤0.3% (висока навіть для складних даних)
Швидкість (стор/сек)
1–3 сек.
1–5 сек. (залежить від складності)
Вартість за 1 стор.
$0.05–$0.10
~$0.002–$0.004 (2-4% від Document AI)
Масштабованість
До 100 одночасних запитів, можливі затримки при високому навантаженні
До 1000 одночасних запитів, автоматичне масштабування без втрати швидкості
Безпека
Шифрування, GDPR, ISO 27001
Шифрування даних, IAM, Confidential Cloud Доступний лише для корпоративних клієнтів від $60/рік

Висновок: 

Для малого бізнесу достатньо Document AI. Але якщо ваші документи — це хаос із скріншотами, рукописами та таблицями-«пірамідами», Gemini стане порятунком. Головне — не забути про Prompt Engineering та валідацію результатів.

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
1
Icon 0

Підписуйтеся на наші соцмережі

Інші матеріали

Стартап, який змінює правила гри на Amazon

Alina Shcherbyna 9 годин тому

Самоаудит: як знайти та виправити помилки завчасно

Ірина Качмарчик 5 годин тому

Про емоційний інтелект, вигорання та міленіалів в робочому колективі.

Роман Крючок 8 годин тому

REDOX проточні акумуляторні батареї: технологія накопичення що змінює майбутнє

Сергій Маринець 10 годин тому

Як б’юті-сфера йде в онлайн: історія ніші, яка зростає всупереч війні та кризам

Сергій Стадниченко 8 годин тому