Штучний інтелект в медицині: чи готові великі мовні моделі до клінічного випробування
Останнім часом штучний інтелект — універсальна технологія на усі випадки життя. Його починають застосовувати у фінансах, виробництві зброї, управлінні ресурсами, медіавиробництві тощо. Однією з перспективних галузей також називають медицину: великий ринок, який потребує інновацій й постійно продукує величезну кількість погано структурованих даних. Однак у цій галузі ШІ наштовхується на специфічні виклики.
Перспективний бізнес
Згідно з дослідженнями Precedence Research, обсяг глобального ринку штучного інтелекту (ШІ) у сфері охорони здоров’я, за прогнозами, зросте з $19,27 млрд у 2023 році до приблизно $613 млрд вже за 10 років.
Штучний інтелект на ринку охорони здоров’я розвивається завдяки технологічному прогресу, урядовим ініціативам і дослідницьким проєктам, адже це одна з найбільших галузей витрат людства. У 2024 році розмір ринку охорони здоров’я (лікарні та клініки, фармацевтичні компанії) оцінювався в $13,3 трлн, а до 2031 року він, за прогнозами, досягне 22,57 трильйона, зростаючи на 8,27% за рік.
Деякі стартапи справді демонструють непогані результати. Наприклад, роботизовані протези запам’ятовують рухи їх власника та автоматично підлаштовуються під конкретне заняття. А універсальна ШІ-система CHIEF може аналізувати зображення пухлинних тканин, прогнозувати молекулярний профіль пухлини та передбачати реакцію на лікування. Вона протестована на 19 типах раку і вже показала високі результати. У п'яти наборах даних біопсій, зібраних з незалежних когорт пацієнтів, модель досягла 96% точності для діагностики таких типів раку, як стравохід, шлунок, товста кишка та простата.
Водночас універсальних рішень, які б розв'язували певну медичну проблему поки досить небагато. Ряд клінік випробували окремі алгоритми у своїй роботі й результати наразі не вражають.
Підписуйтеся на наші соцмережі
ШІ в медицині: винайти те, що вже працює
Дослідження, опубліковане в інтернеті як препринт, базується на свідченнях відкриттів 89 професіоналів, які брали участь у розгортанні ШІ в 11 організаціях охорони здоров’я, включаючи Duke Health, Mayo Clinic і Kaiser Permanente.
У дослідженні ШІ мав допомагати на восьми етапах лікування, серед яких визначення діагнозу, розробка способів оцінки, моніторинг, оновлення інструментів тощо. З відповідей 89 опитаних спеціалістів і клініцистів, які були анонімними, лікарняні системи відчували труднощі на кожному з цих кроків.
Це включає навіть кілька перших кроків із виявлення проблем, з якими ШІ може допомогти. «Наразі багато рішень штучного інтелекту в основному намагаються робити те ж саме, що й лікар. Прочитати рентгенівський знімок, як це зробив би радіолог. Але у нас уже є радіологи« сказав один з учасників дослідження.
Чи можна довіряти штучному інтелекту у діагностиці хвороби
Ефективність ШІ-діагноста викликає багато питань. Дослідження JAMA Internal Medicine показало, що ChatGPT (версія 3.5) рішуче випередив лікарів у наданні високоякісних чуйних відповідей на медичні запитання, які люди публікували на subreddit r/AskDocs. Чудові відповіді — за суб’єктивною оцінкою групи з трьох лікарів із відповідним медичним досвідом — свідчать про те, що чат-бот штучного інтелекту, такий як ChatGPT, одного разу зможе допомогти лікарям витрачати менше часу на медичні повідомлення, надіслані через онлайн-портали пацієнтів.
Це не поганий результат, але на практиці усе дещо складніше. Для початку, типи запитань, які люди ставлять на форумі Reddit, не обов’язково відповідають тим, які вони б поставили лікареві, якого вони знають і якому довіряють.
Інше подібне дослідження, опубліковане в The Lancet, оцінило потенціал LLM для зменшення навантаження на лікаря та покращення навчання пацієнтів. Було встановлено, що, 7,1% невідредагованих відповідей, створених LLM, становили ризик для пацієнтів, у тому числі 0,6% мали потенційні наслідки для життя.
Окрім того, штучний інтелект грішить «галюцинаціями». Наприклад, у одному з випробувань велика мовна модель (LLM) допускає особливу помилку із раком простати. Якщо їхні результати тесту на простатоспецифічний антиген виявлялися дещо підвищеними — що є частиною нормальних коливань — LLM записувала це як прогресування захворювання.
Також, щоб перевірити наскільки корисними можуть бути мовні моделі для обробки медичних записів на які лікарі витрачають багато часу вчені протестували MedAlign, набір даних, створений для оцінки роботи великих мовних моделей (LLM) у медичній сфері. Різні мовні моделі мали від 35 до 68% неправильних відповідей.
Нові датасети та регуляція
Помилки інструментів ШІ часто створюють більше роботи для лікарів, а не навпаки. Щоб по-справжньому допомогти лікарям і бути безпечними для пацієнтів, деякі експерти кажуть, що охорона здоров’я повинна будувати власні LLM з нуля. І всі згодні з тим, що галузі відчайдушно потрібен спосіб більш ретельно перевірити ці алгоритми.
Цінність розгортання загальних LLM у сфері охорони здоров’я сумнівна. Дослідження клінічної фірми зі штучного інтелекту Mendel виявило, що коли GPT-4o або Llama-3 використовували для підсумовування медичних записів пацієнтів, майже кожне резюме містило принаймні один тип галюцинації.
«Ми бачили випадки, коли у пацієнта справді була алергія на ліки, але система каже, що «невідомо про алергію на ліки» в резюме історії хвороби», — сказав Ваель Саллум, доктор філософії, співзасновник і головний науковий співробітник Mendel. «Це серйозна галюцинація. І якщо лікарям доводиться постійно перевіряти те, що їм повідомляє система, це суперечить її меті».
Частина проблеми мовних моделей полягає в тому, що їм просто не вистачає високоякісної інформації. Інтернет переповнений низькоякісною або оманливою інформацією про здоров’я з оздоровчих сайтів і реклами добавок. І навіть дані, які заслуговують на довіру, як-от клінічні дослідження чи заяви Управління з продовольства і медикаментів США (FDA), можуть бути застарілими.
Кілька груп уже працюють над базами даних стандартизованих медичних знань та/або реальних відповідей лікарів.
Також поточні алгоритми ШІ достатньо «самовпевнені» й не відповідають «я не знаю» у випадках, коли прогноз має малу ймовірність.
Окремою проблемою є регулювання інструментів штучного інтелекту у медицині. Наприклад, у США FDA регулює лише алгоритми, які вважаються медичними пристроями. Більшість LLM, які використовуються для адміністративних завдань, не підпадають під компетенцію регуляторного агентства, але все ще мають доступ до інформації про пацієнтів і можуть безпосередньо впливати на рішення пацієнтів і лікарів. Очікується, що з’являться сторонні регулятори, але досі незрозуміло, хто це буде.