Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

Усе, що ви хотіли знати про DeepSeek: продуктивність, безпека даних та вплив на ШІ-індустрію

0
29 січня 2025 9 хвилин читання

Чатбот, створений китайським стартапом із штучного інтелекту DeepSeek, цього тижня піднявся на вершину чартів Apple App Store у США, потіснивши ChatGPT як найбільш завантажувану безкоштовну програму, а заодно й обвалив акції найбільших західних технологічних компаній. SPEKA спробувала розібратись, що відомо про китайський ШІ-застосунок та хто за ним стоїть, наскільки безпечно ним користуватись та на що чекати технологічному сектору від приходу нового гравця. 

Усе, що ви хотіли знати про DeepSeek: продуктивність, безпека даних та вплив на ШІ-індустрію зображення 1

Хто стоїть за розробкою ШІ DeepSeek

Історія розвитку DeepSeek досить нетипова. Компанію заснував у 2023 році підприємець Лян Веньфенг, який ще з 2015-го розвивав хеджфонд High-Flyer. Фінансова установа використовувала машинне навчання для виявлення закономірностей, які можуть впливати на ціни акцій.

High-Flyer накопичувала графічні процесори та створювала суперкомп’ютери Fire-Flyer для аналізу фінансових даних. Її очільник Лян вивчав комп’ютерні науки, а знайомі описують його радше як гіка, ніж корпоративного директора. Тому Лян Веньфенг вирішив інвестувати у розробку передових моделей та розробити загальний штучний інтелект (AGI). Попередня фінансова діяльність здебільшого слугувала базою для наукових розробок. В інтерв’ю китайському технологічному виданню 36Kr Лян зазначив, що «не зміг би знайти комерційної причини для заснування DeepSeek, навіть якби ви попросили мене про це». Мовляв, фундаментальні наукові дослідження мають дуже низький коефіцієнт окупності інвестицій й на цих етапах комерційно невигідні. 

Усе, що ви хотіли знати про DeepSeek: продуктивність, безпека даних та вплив на ШІ-індустрію зображення 2 Лян Веньфенг, очільник та засновник DeepSeek

Загалом у компанії чимало незвичного. Наприклад, компанія позиціює себе як лабораторія, яка віддає перевагу довгостроковому технологічному прогресу над швидкою комерціалізацією. При цьому Лян стверджує, що коли він збирав дослідницьку групу DeepSeek, то не шукав досвідчених інженерів для створення продукту, орієнтованого на споживача. Натомість він зосередився на талантах провідних університетів Китаю, які прагнули проявити себе. Більшість посад у компанії зайнято нещодавніми випускниками та аспірантами. За даними китайського технічного видання QBitAI, багато з них були опубліковані у провідних журналах і отримали нагороди на міжнародних наукових конференціях, але їм бракувало досвіду роботи в галузі.

«Наші основні технічні посади здебільшого зайняті людьми, які закінчили навчання цього року або за останні один чи два роки», — сказав Лян 36Kr у 2023 році. А також додав, що студенти краще підходять для дослідження з високими інвестиціями та низьким прибутком. «Більшість людей, коли вони молоді, можуть повністю присвятити себе місії без утилітарних міркувань». При цьому хеджфонд оплачує фахівцям зарплати, як у інших цифрових гігантів на кшталт Baidu, Alibaba або ByteDance. Очільник говорить потенційним найманцям, що DeepSeek було створено, щоб «розв'язувати найскладніші питання у світі».

Що таке DeepSeek-R1 та у чому особливість ШІ-моделі

Ще у листопаді DeepSeek повідомив, що зміг перевершити результати останньої моделі OpenAI o1, але на той час продемонстрував лише обмежену версію. Натомість 22 січня компанія опублікувала технічну статтю та випустила ШІ модель DeepSeek-R1. Як і багато китайських розробників ШІ, DeepSeek, ймовірно, спиралася на відкриті моделі Meta, наприклад, Llama та бібліотеку машинного навчання Pytorch.

Що стосується продуктивності, то модель виконує 96,3% завдань із програмування та 97,3% на MATH-500 — 97,3%. На одному з найскладніших математичних змагань AIME 2024 — 79,8%, що на той час було кращим результатом, ніж доступні для користувачів моделі OpenAI. 

Однак аналогічні просунутим алгоритмам результати не єдине досягнення DeepSeek-R1. 

Підписуйтеся на наші соцмережі

Цікавим є те, компанія вирішила при тренуванні моделі відійти від методу керованого тонкого налаштування (fine-tuning), а використовувати навчання з підкріпленням (reinforcement learning) для навчання DeepSeek-R1.

При цьому моделі вдалось досягти режиму міркування навіть у моделях з меншою кількістю параметрів. Версія з 14 млрд параметрів, яку можна запустити без професійного обладнання перевершує багато моделей, які в кілька разів перевищують її розмір. 

Разом із тим є у її ефективності і ложка дьогтю. Модель упереджена, зокрема у політичних питаннях. Наприклад, DeepSeek відмовляється розповідати про події на площі Тяньаньмень чи щодо територіальних конфліктів з Тайванем. 

Усе, що ви хотіли знати про DeepSeek: продуктивність, безпека даних та вплив на ШІ-індустрію зображення 3

Відкритий код 

Ще однією новацію стало те, що компанія оприлюднила код своєї розробки, що є дуже нетиповим кроком у індустрії штучного інтелекту. Більшість компаній на кшталт OpenAI, Mistral тощо не оприлюднюють подібні дані.

DeepSeek-R1 розповсюджується під ліцензією MIT, яка є стандартною у відкритому програмному забезпеченні. Ліцензія MIT дозволяє повну свободу використання, включно з комерційним застосуванням, без жодних обмежень. Натомість більшість західних компаній дозволяють використання лише через платний API. 

Побічний продукт холодної війни

У жовтні 2022 року уряд США почав запроваджувати експортний контроль, який суворо обмежив китайським компаніям ШІ доступ до передових чипів, таких як H100 від Nvidia, щоб обмежити країну у гонитві за першість в індустрії. Цей крок став проблемою для DeepSeek. Фірма починала з запасу в 10 тис. процесорів A100, але їй потрібно було більше, щоб конкурувати з такими фірмами, як OpenAI і Meta.

Саме тому DeepSeek довелося придумати більш ефективні методи навчання своїх моделей. Експерти кажуть, що архітектуру моделі оптимізували за допомогою ряду інженерних хитрощів — власних схем зв’язку між мікросхемами, зменшення розміру полів для збереження пам’яті та інноваційного використання підходу змішування моделей. Ці способи не є новими, але дуже добре реалізованими. 

Насправді остання модель DeepSeek настільки ефективна, що, згідно з даними дослідницької установи Epoch AI, для навчання потрібно 10% обчислювальної потужності порівнянної моделі Meta Llama 3.1.

Така економічна ефективність відображена в ціні API для DeepSeek-R1, яка коштує лише $0,55 за мільйон вхідних токенів і $2,19 за мільйон вихідних (у OpenAI API у $15 і $60 відповідно).

Розробка R1 було створено на базі V3 LLM коштувала менш як 6 млн (заяву піддають сумнівам багато експертів — ред. ). Сем Альтман розповідав, що навчання GPT-4 коштує понад 100 мільйонів доларів. DeepSeek також стверджує, що для навчання V3 знадобилося лише близько 2 тис. спеціалізованих чіпів від Nvidia, у порівнянні з 16 тис. або більше, необхідних для навчання провідних моделей.

Те, що DeepSeek-R1 працює однаково ефективно як передові моделі, споживаючи менше ресурсів фактично шокувало ринок. Раніше непорушний тренд «більші обчислювальні потужності — кращі результати» суттєво підважили, що призвело до падіння акцій виробників чипів. Наприклад, Nvidia втратила 17% від капіталізації, її конкурент Oracle — 8%, а виробника машин для чипів ASML — 11%.

Усе, що ви хотіли знати про DeepSeek: продуктивність, безпека даних та вплив на ШІ-індустрію зображення 4 Ціна акцій Nvidia за останні 5 днів

Nvidia, Microsoft, OpenAI і Meta інвестують мільярди в центри обробки даних штучного інтелекту — лише 500 мільярдів доларів на проект Stargate, з яких 100 мільярдів, як вважають, призначено для Nvidia. Інвестори та аналітики зараз задаються питанням, чи недаремно витрачені гроші, оскільки Nvidia, Microsoft та інші компанії мають значну вигоду в підтримці статус-кво штучного інтелекту. 

Які дані збирає DeepSeek?

Відповідно до власної політики конфіденційності DeepSeek збирає великі обсяги особистої інформації користувачів, яка потім зберігається «на захищених серверах» у Китаї.

Це може включати:

  • Вашу електронну адресу, номер телефону та дата народження, введені при створенні облікового запису
  • Будь-який введений користувачем текст, аудіо, а також історії чатів
  • Так звана «технічна інформація» — від моделі вашого телефону та операційної системи до вашої IP-адреси та «схем натискання клавіш».

DeepSeek ділиться цією інформацією з іншими компаніями, такими як постачальники послуг, рекламні партнери та корпоративна група. Інформація зберігатиметься «стільки, скільки буде потрібно».

Також у документі вказано, що дані можуть використовуватися, «щоб допомогти зіставити вас і ваші дії за межами сервісу».

Але хоча програма збирає багато даних, експерти зазначають, що вона дуже схожа на політику конфіденційності, з якою користувачі, можливо, вже погодилися для конкуруючих служб, таких як ChatGPT і Gemini, або навіть платформ соціальних мереж.

Також достеменно невідомо чи брав участь уряд Китайської народної республіки у фінансуванні проєкту. Теоретично DeepSeek може стати чудовим інструментом для збору розвідданих. Таким шляхом можна отримувати моделі поведінки цілих суспільств і далі втілювати інструменти впливу. Приміром як використовувався TikTok на виборах у Румунії. 

Застосунок безкоштовний і вже завантажений понад 10 млн користувачів. Зараз DeepSeek обмежує реєстрацію нових користувачів «через масштабні зловмисні атаки на сервіси DeepSeek». Для зареєстрованих користувачів сервіс працює без змін. 

0
Icon 0

Підписуйтеся на наші соцмережі

Інші матеріали

Як підібрати КВЕД для ФОП бізнес-тренера, який надає послуги з коучингу?

Inna Sharova 22 години тому

Акумулятори для СЕС: як не помилитись з вибором?

Антон Березинський 12 червня 2025 15:55

Айдентика Дизаріуму 2024 здобула золото у конкурсі Ukrainian Design: The Very Best Of – успіх мережі ТВОРИ!

Юліана Сомар 11 червня 2025 15:33

Як синергія маркетинг та продакт команд допомагає будувати бізнеси-єдинороги

Brainstack 11 червня 2025 22:35

Секрети утримання курсу: топ-інсайти з воркшопу Алекса Момота та Kumeka team

Тарас Мазур 12 червня 2025 15:24