Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Data Security: як імплементувати LLM безпечно

Олег Богуславський
Олег Богуславський CTO & Co-owner Data Science UA
9 серпня 2024 7 хвилин читання

Унікальні технології, стратегії, фінанси — усе це про дані, які створюють конкурентні переваги на ринку та дають змогу ухвалювати рішення для максимізації прибутків. ШІ — це інструмент оптимізації цього процесу, що інтегрується десятками тисяч компаній прямо зараз. Та чи не стане це причиною витоків їхньої інформації? Олег Богуславський, CTO у Data Science UA, пояснює, що таке LLM, як її навчити та інтегрувати, гарантувавши безпеку власних даних.

Що таке LLM?

Ми називаємо штучним інтелектом (ШІ) велику індустрію технологій, що здатні виконувати творчі завдання, які раніше були по силам лише людям. Серед них — розпізнавання обʼєктів та їхня класифікація, розпізнавання людської мови, генерація зображень, текстів тощо.

Large Language Model (LLM) — це один із типів АІ, що здатний розпізнавати та генерувати текст так, як це роблять люди, а іноді навіть краще. ChatGPT — це LLM з доступним інтерфейсом.

Для чого ж інтегрують LLM? Він здатний аналізувати великі потоки даних швидше, аніж це робить людина: аналітика звітності, розрахунки, оцінка сотні тисяч даних, пошук закономірностей тощо – перелік здібностей нескінченний.

Принципи навчання LLM

Для навчання моделі будь-якого розміру, у тому числі і для LLM, необхідні дані, тобто “матеріал” для навчання. У абревіатурі LLM — Large є маркером того, що ця модель навчалась на величезній кількості даних, що вимірюється сотнями терабайтів. 
До речі, це і є приводом масових позовів до суду на OpenAI та інших. 

Чому? Вони використовували для навчання своїх моделей усю відкриту інформацію з інтернету, у тому числі — і статті американських видань, що захищені авторським правом.

Інтегруючи LLM у компанію варто потурбуватися про те, аби надані матеріали для навчання під конкретний запит клієнта не опинилися у загальному доступі і не розкривалися іншим користувачам того ж ChatGPT.

Про те, як це зробити, поговоримо далі на основі найпопулярнішого рішення серед клієнтів Data Science UA. 

Приватна чи публічна LLM?

Одне з найпопулярніших рішень, яке обирають, аби обмежити витоки даних – це приватні LLM. Що це таке та навіщо? 

Підписуйтеся на наші соцмережі

Розбираємо на прикладі:

Коли у ChatGPT відправляється запит, перш ніж надати відповідь, він відправляє його на сервер, що обробляє дані, готує та надсилає до Chat-GPT відповідь, щоб він доніс її до нас. Зокрема, запити всіх інших користувачів так само відправляються на цей же сервер. 

Це і зветься публічною LLM, оскільки запити направляються до загально доступних серверів, над якими ми не маємо влади та контролю.

У випадках, коли ми працюємо з базами даних і нам треба виключити ймовірність витоку даних, використовуються приватні LLM – тобто ті, що знаходяться на локальних серверах з обмеженим доступом. У цьому випадку локальними серверами виступають як власні сервери клієнтів, так і хмарні сервіси, що надають їх в оренду, наприклад – AWS. 

Data Security: як імплементувати LLM безпечно зображення 1 Різниця у інтеграції LLM

Приватні LLM: бенефіти

Отже, яка користь від приватних LLM?

1. Безпека даних та конфіденційність

Ризики витоку даних з таких моделей мінімальні, адже у саму її концепцію закладено те, що ваші дані існують в межах безпечної інфраструктури компанії та не можуть її покинути. Саме це робить це рішення актуальним для роботи у фінансах, медицині, хімії тощо – тобто у всіх сферах, де конфіденційність грає значну роль, а оптимізація процесів з ШІ є ключовою у технологічних перегонах. 

Щобільше, окремі регіони мають своє законодавство, де чітко прописані правила для обробки даних. Приватні LLM адаптивні, тож можуть підлаштовуватись під будь-які “правила” компанії. 

2. Персоналізація та налаштування

Часто написання промту та корегування відповіді того ж ChatGPT займає більше часу, аніж виповнення задачі самостійно. Налаштувати публічну LLM доволі складно, навіть якщо ви використовуєте вже готові продукти для цього. 

Це обумовлено їх здатністю відповідати на будь-які питання, «не заглиблюючись» в кожну окрему тематику. Інша справа — приватні LLM, які можуть забезпечити специфічні налаштування, орієнтовані під конкретну сферу, специфіку та задачі. 
Наприклад, у сфері рітейлу, ці моделі аналізують попередній досвід споживача та формують для нього персональні рекомендації, не поширюючи дані для сторонніх сервісів.

3. Операційна автоматизація

Загалом, за рахунок персональних налаштувань та збереження конфіденційності, приватні LLM відкривають набагато більше можливостей, аніж публічні. 
Це дозволяє оптимізувати адміністративні задачі, що відповідають за планування, логістику, тощо. З точки зору HR — полегшують онбординг нової людини, роблячи пошук відповідей більш доступними. При роботі зі звітністю – полегшують роботу з даними, шукаючи їх за вас, рахуючи, порівнюючи та висловлюючи власні висновки. 

Імплементація: вартість та окупність

Перш за все, імплементація будь-яких ноу-хау має прямо чи опосередковано нести вигоду. Але рішення та їхні масштаби настільки відрізняються в залежності від запиту, що розрахувати цінову вилку просто неможливо. У Data Science UA ми здебільшого відштовхуємось від можливостей і бажань клієнтів, пропонуючи декілька альтернатив у різних цінових категоріях. 

Вартість приватних LLM коливається залежно від ряду речей.

1. Проблеми, які LLM вирішує 

Залежно від того, як саме буде застосовуватись LLM, яку кількість функцій буде виконувати та яких зусиль буде вартувати створити її, буде коливатись і вартість. 

2. Хостингу

Розміщення LLM мають декілька варіацій, які формують її вартість. Різні хмарні сервіси пропонують різну вартість, до того ж, завжди залишається можливість розгорнути LLM на власних серверах. Який з цих варіантів більш вигідний – справа окремого кейсу. 

3. Технічних вимог

Що більші обсяги даних ви будете обробляти, то дорожче буде обходитись LLM. Від обсягу даних залежать необхідні обчислювальні потужності та ємність сховища. 
До загальних технічних вимог входять: протоколи безпеки, можливості інтеграції, інструменти технічного обслуговування та моніторингу та відповідність нормативним вимогам. 
З огляду на велику кількість показників, які впливають на вартість розробки, найбільш раціональним рішенням буде пошук сервісної компанії, яка вже має досвід та може прогнозувати темпи зросту обсягів даних. 

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
0
Icon 0

Підписуйтеся на наші соцмережі

Інші матеріали

Як концепція «Золоте кільце» змінює підхід до бізнесу?

Олеся Руденко 24 березня 2025 08:13

Що таке глобальний рух MeToo?

Олеся Руденко 18 годин тому

Огляд сервісів для створення музики за допомогою ШІ

Сергій Коноплицький 15 годин тому

Над Україною помітили унікальне явище: що відомо

Владислав Паливода 24 березня 2025 23:16

Точки зростання CRO з AI. Як оптимізувати шляхи користувачів і зменшити падіння на етапі оформлення замовлення

Тарас Герасимюк 24 березня 2025 00:13