Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

AI несеться: боротьба з аудіодипфейками, багато оновлень від OpenAI та Anthropic

Кирило Чеботарьов
Кирило Чеботарьов PR Manager @ Roosh
14 червня 2024 16 хвилин читання

На зв’язку AI HOUSE! Починаємо з кількох наших апдейтів, а далі все, як любимо — важливі новини та цікаві історії зі світу ШІ.

  • 1
    Нещодавно вийшов новий випуск AI HOUSE Podcast. Гість епізоду — Богдан Бобиль, Research Lead у SQUAD та викладач факультету комп’ютерних наук та кібернетики у КНУ ім. Тараса Шевченка. З ним поговорили про MLOps, а саме про процес роботи з моделями, метрики, які потрібно трекати у продакшені, потребу в MLOps та коли вона з’являється, ML у моніторингу та багато іншого. Дивіться на нашому YouTube-каналі або слухайте на зручних для вас подкаст-платформах.
  • 2
    Ділимося крутою можливістю — відкрили набір до літньої школи з Quantum Machine Learning від УКУ. Тема цьогорічної школи: From classical ML in Quantum Computing to Quantum Machine Learning. Чекають на ентузіастів із квантових обчислень з 26 липня по 3 серпня. Реєстрація відкрита до 17 липня. Найкращі зможуть отримати грант на участь від партнерів, зокрема, від квантового стартапу Haiqu та від нас, AI HOUSE. 

А тепер — до ШІ-новин! Сьогодні розбиратися з найголовнішими з них нам допоможе Дмитро КузьменкоData Science Engineering Manager у LITSLINK, старший викладач факультету інформатики Національного університету «Києво-Могилянська академія».

AI несеться AI несеться

Пачка оновлень від OpenAI

  • Компанія почала тренувати нову модель <привіт, GPT-5?> і вже сформувала для цього безпекову раду, куди входять генеральний директор OpenAI Сем Альтман, голова ради директорів Брет Тейлор, а також чотири технічні та політичні експерти компанії.

    Цікаво, що рада з’явилася якраз тоді, коли навколо компанії розгортаються дебати щодо безпеки ШІ. Нещодавно OpenAI розформувала команду Superalignment, яка відповідала за безпечний розвиток технології, а компанію покинули Ілля Суцкевер та Ян Лейке — дослідники, що очолювали цю команду.

    Суцкевер пішов відносно тихо, натомість Лейке розкритикував OpenAI за те, що компанія «ігнорує питання безпеки», щоб «випускати більше гучних продуктів» <спойлер — Лейке перейшов до одного з головних конкурентів OpenAI, але про це далі>.
  • OpenAI тимчасово припинила використання голосу Sky в ChatGPT через його схожість із голосом Скарлетт Йоханссон, після того як актриса пригрозила компанії судовим позовом. У компанії пояснили, що голос належить іншій акторці, а така схожість є випадковою, і навіть передали у ЗМІ документи, що підтверджують це.

    Сама акторка, що озвучувала Sky, також незадоволена ситуацією, адже це її «природний голос», і раніше ніхто не порівнював її з Йоханссон. Втім, у компанії вирішили не випробовувати долю та не доводити справу до суду і вибачились перед Йоханссон. 
  • Поповнення у колекції: OpenAI запартнерилась із The Atlantic та Vox Media <Vox, The Verge, Eater, New York Magazine> і буде використовувати їхній контент для тренування своїх моделей.  
  • Очікуване неочікуване: OpenAI викрила групи з росії, Китаю, Ірану та Ізраїлю, що використовували ChatGPT з пропагандистською метою. Вони писали пости, перекладали їх різними мовами та створювали ПЗ, яке допомагало їм автоматично публікувати це все у соцмережах. Жодній з груп не вдалося надто вплинути на світовий дискурс, адже охоплення були невеликі, проте тренд очевидний — пропагандисти дедалі активніше використовують AI у своїх кампаніях. 
  • ChatGPT Edu — новий чатбот, призначений для студентів, науковців і викладачів. Edu працює на базі GPT-4o, має вищі ліміти на кількість повідомлень, дозволяє створювати власні GPTs і ділитися ними у межах університетських робочих просторів. Розмови та дані з Edu не будуть використовуватися для подальшого навчання моделей OpenAI.
  • OpenAI перезапускає дослідницьку групу з робототехніки, яку було закрито в липні 2021-го. Зараз компанія шукає інженера-дослідника робототехніки, а нещодавно проінвестувала у стартап Figure AI, що розробляє роботів. 
Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Багацько апдейтів від ОАІ, звісно, але це не означає, що це «мінорні» новини. Те, що зараз відбувається з безпековими відділами (розформування superalignment team, перехід кадрів з OpenAI до Anthropic), в принципі очікувано. Ентропія довкола цих питань досить висока і спадати поки що не планує, адже ШІ-гіганти, попри наявність найтоповіших фахівців світу, поки що розбираються з interpretability своїх систем, застосуваннями і новими можливостями своїх продуктів. І, звісно, грають у свої конкурентно-політичні ігри. GPT-4o та інцидент зі Sky — яскравий приклад цієї високої ентропії. Я детально не розбирався і не вичитував, але може бути, що голос дійсно не був модифікований навмисно, але довести це важко. Тож мув OpenAI про forfeit and apology перед Йохансон — правильний мув, на мою думку. 

Бачте, трохи шифтять свою парадигму ОАІ: будуть тренувати на Vox, The Verge, etc. (доцільно, бо unharmful, а дані хороші), але не будуть тренувати на ChatGPT Edu для студентів і викладачів — дуже доцільно! Створюється позитивний моментум довіри до компанії, щоб академіків не чіпали. :) Взагалі ця тула мені здається хорошою ініціативою, я б сам користувався і саме за причини сек’юрності даних. GPT-4o далеко не всюди кращий на GPT-4-turbo, як показала практика, але вже най буде.

Репорту, наданому компанією про harmful usage чату усілякими переважно ворожими народами, я був дуже приємно здивований. Дякую за transparity, дядечку Семюел! Аналітику збирають, отже можуть і активно протидіяти за великого бажання, і це єдине, чого хочеться.

Ну і, напевно, найцікававіша особисто для мене новина — про перевідкриття Robotics group! Давно цього чекали і нарешті дочекалися. Те, що 2024-й — рік robotics — це не те, що зрозуміло вже давно, це ще тільки початок. За цим — за RL, за мультимодальними Vision-Language-Action моделями — майбутнє, і побачимо, як цьому посприяє оновлена ініціатива від OpenAI.

Пачка оновлень від Anthropic

Користувачі чатбота Claude тепер зможуть створювати власних AI-асистентів. Це не повноцінні AI-агенти, проте точно крок у цьому напрямі, адже боти працюватимуть на базі різних API і зможуть автоматизувати різні процеси. Наприклад, такий AI-асистент зможе проаналізувати вашу історію покупок та створювати персональні рекомендації, купувати квитки, обробляти запити в електронній пошті. Щоб створити асистента, потрібен лише доступ до API та вміння програмувати.

Дослідники Anthropic випустили цікаве дослідження <пейпер тут>, у якому вони пробують розібратися, як же думає AI на прикладі Claude Sonnet. Фактично це перший випадок, коли хтось зміг так глибоко «залізти під капот» сучасної великої AI-моделі. Дослідники застосували техніку «навчання словника» <dictionary learning>, яка ізолює шаблони активації нейронів, що повторюються у багатьох різних контекстах.

Це дозволило їм виявити особливості, що відповідають величезному спектру абстрактних концепцій, а також маніпулювати цими особливостями, щоб побачити, як змінюються відповіді Claude. Наприклад, вони змусили його написати шахрайського листа, хоча зазвичай чатбот відмовляється це робити. Це відкриття може допомогти зробити AI-моделі безпечнішими у майбутньому, відстежуючи небезпечну поведінку або видаляючи певний небезпечний контент.

Ян Лейке <той, що пішов з OpenAI через незгоду з безпековою політикою компанії> приєднався до Anthropic, де він очолить… команду з Superalignment. Іронічно. Нагадаємо, що Anthropic також сформували колишні співробітники OpenAI, яким не подобалось, як розвивається компанія. 

Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Чесно, не надто плідно стежу за апдейтами від Anthropic останнім часом, але, схоже, що своїми АІ-асистентами вони продовжують наздоганяти OpenAI та тримати активну позицію у цих перегонах. Подивимось, наскільки воно якісне буде, але вже багатьом юзерам Opus’у буде + приємна фіча.

Ой, на момент написання цього коментаря, я тільки вчора увечері прийшов з офлайн-запису ювілейного подкаста АІ HOUSE, де Олеся Петріва — людину, яку я знав ще до Reface як колегу з Могилянки й колись питався в нього консультації щодо якогось проєкту, — я не впізнав. У хорошому сенсі слова. :) Він дуже багато і впевнено розказував про речі, сусідні з neuromorphic computing, новими штучними нейронами й цілими обчислювальними кластерами, що базуються на біоорганізмах.

Було цікаво послухати — я не очікував, що Олесь таку базу прокачав у цьому напрямі. :) Так от, я це до того, що зараз впевнено розвивається науковий напрям, який вивчає всі ці питання — дослідження когнітивних спроможностей нейромереж, альтернативні обчислювальні біостанції на основі міцелію, отримання першої свідомості. І, звісно, те, що зробили Anthropic у своєму рисерчі, — це вже прикладний початок цього напряму і досить непоганий його приклад. 

Я не думаю, що OAI під загрозою від цих переходів певних кадрів до Anthropic, зважаючи на те, як швидко вони повернули собі першість на lmsys-лідерборді, але теншн зростає, а конкуренція розвивається. Для нас, як для спостерігачів-рисерчерів з боку, це дуже добре. Бо монополія на ринку нікому не потрібна, а від адекватної конкуренції домейн активно росте. Тільки головне, щоб вона все ж була адекватна. :)

AI несеться AI несеться

Кодери на місці? Для вас тут оновлення від Mistral

Компанія Mistral представила свою першу модель для генерації коду Codestral. Вона натренована на наборі даних з понад 80 мов програмування, зокрема найпопулярніші Python, Java, C++, JavaScript. Модель оупенсорсна, має 22 млрд параметрів. 

Підписуйтеся на наші соцмережі

Компанія стверджує, що Codestral є найкращою моделлю для написання коду у порівнянні з конкурентами на кшталт CodeLlama завдяки якості роботи <про що говорять бенчмарк-оцінки> та більшому контекстному вікну <32к токенів у порівнянні з 4-16к у конкурентів>. Спробувати Codestral можна у Le Chat

Дмитро Кузьменко
Дмитро Кузьменко
Data Science Engineering Manager у LITSLINK

Я не фанат low-code/no-code систем, принаймні поки що, але я дивився цю модельку, читав відгуки у твітері — виглядає досить непогано, і, якщо зважати тільки на бенчмарки і контекстуальні спроможності моделі, це дуже крок вперед у кодерах-асистентах. Будемо чекати й дивитись на релізи нових моделей і від інших компаній, окрім Mistral.

Короткі новини

💻Microsoft представила ноутбуки Microsoft Surface Laptop, оптимізовані для роботи із ШІ, які, за обіцянками компанії, будуть на 58% швидшими за MacBook Air з процесором M3. Перші моделі з процесорами Qualcomm вийдуть 18 червня. Крім того, Google анонсував Chromebook Plus вартістю $350 з інтегрованими ШІ-можливостями, які допомагатимуть власнику працювати з текстами <за допомогою функції Help me write й чатбота Gemini> та зображеннями <інструмент Magic Editor>. Схоже, Google прагне зробити передові ШІ-технології доступними навіть у бюджетному сегменті ноутбуків — це щонайменше цікаво.

📸Анонсована для Windows 11 ШІ-функція Recall, яка робить скриншоти всієї активності користувача комп’ютера, стала повним провалом для Microsoft. Експерти з кібербезпеки попереджають, що Recall не приховує паролі та фінансові дані на знімках екрана і навіть те, що скрини зберігаються лише на комп’ютері, не робить проблему меншою. Британські наглядові органи вже розпочали розслідування проти компанії. Схоже, Microsoft доведеться серйозно доопрацювати Recall, перш ніж випускати її на ринок.

✍🏼Провідні технологічні гіганти, серед яких Microsoft, OpenAI, Anthropic, xAI, підписали безпекову угоду. Компанії беруть на себе добровільні зобов'язання щодо безпечного розроблення своїх найпередовіших AI-моделей. Вони створять рамки безпеки, які визначатимуть виклики та «червоні лінії» для своїх передових систем та впровадять «аварійні вимикачі», які зупинять розроблення їхніх AI-моделей, якщо компанії не зможуть гарантувати зниження цих ризиків.

💰xAI залучила $6 млрд у межах раунду фінансування серії B з оцінкою компанії у $24 млрд. Кошти підуть на розроблення продуктів, інфраструктури та пришвидшення досліджень. Маск прогнозує появу AGI вже наступного року, а залучений капітал допоможе забезпечити xAI необхідними обчислювальними потужностями для подальшого масштабування.

🎧Стартап Iyo, створений експрацівниками Google, розробляє розумні бездротові навушники з використанням генеративного ШІ, щоб досягти успіху там, де зазнали невдачі Humane зі своїм Ai Pin та Rabbit з гаджетом R1. Які саме унікальні функції забезпечить штучний інтелект, поки що не уточнюють. Стежимо.

📝Верховна Рада ухвалила законопроєкт, який передбачає відповідальність за плагіат і використання ШІ для написання наукових робіт. За порушення можуть відрахувати з навчального закладу або ж позбавити стипендії чи наукового ступеня. Якщо ж автор використовував ШІ, він обов’язково має вказати це у методиці формування чи послатися на інструмент.

📜Perplexity AI представила Perplexity Pages. Користувачі зможуть створювати вебсторінки із згенерованим ШІ контентом. Користувачі можуть адаптувати стиль написання, а також змінювати структуру, додаючи, видаляючи або змінюючи порядок розділів. Крім того, інструмент автоматично додає візуальні елементи, які можна додатково налаштувати.

✂️Після гучного запуску AI Overviews — «сумаризатора» інформації у відповідь на запити користувачів, — Google, схоже, почав згортати цю функцію через численні помилки та недоліки. Так, наприклад, можна було отримати пораду додавати клей у піцу та їсти каміння для отримання поживних речовин. Компанія визнала, що їй слід було запускати цю функцію повільніше, і тепер працює над мінімізацією помилок. Однак у довгостроковій перспективі Google не планує відмовлятися від AI Overviews.

🤖ElevenLabs представила Text to Sound Effects — новий інструмент, який дозволяє генерувати звукові ефекти на основі текстових запитів. Ця технологія допоможе контент-мейкерам, розробникам відеоігор, кіно- та телестудіям, адже тепер вони зможуть створювати будь-які необхідні звуки за кілька секунд.

🖼Canva представила низку ШІ-функцій: Magic Edit та Magic Eraser для редагування фото, Beat Sync для синхронізації відео з музикою та Magic Write для генерації текстового контенту. 

🧠Дослідники створили SignLLM — першу багатомовну ШІ-модель, здатну генерувати жести жестової мови на основі введеного тексту. Пейпер тут.

Цікаве з мережі

За останній рік «голосові» можливості ШІ значно зросли. Це має як позитивний вплив <наприклад, генерація синтетичного голосу для людей з вадами мовлення>, так і негативний <шахраї можуть використовувати ШІ для клонування голосів, видаючи себе за когось іншого, або для створення політичних/військових дезінформаційних фейків>. 

Щоб боротися із дедалі зрослими небезпеками аудіодипфейків, Федеральна торгова комісія США запустила конкурс Voice Cloning Challenge. Учасники мали розробити ідеї для запобігання, моніторингу та оцінки зловмисного використання клонування голосу. Іму квітні агентство оголосило трьох переможців змагання.

Перший інструмент, OriginStory, перевіряє голос у джерелі. «Ми розробили новий тип мікрофона, який підтверджує, що записана мова у момент її створення належить людині», — розповідає Вісар Беріша, професор електротехніки в Університеті штату Аризона, який очолює команду розробників.

Спеціальний мікрофон OriginStory записує акустичні сигнали, як і звичайний мікрофон, але додатково має вбудовані сенсори для виявлення та вимірювання біосигналів, які тіло випромінює під час розмови людини — серцебиття, рухи легень, вібрації голосових зв'язок, рухи губ, щелепи та язика. Таке «підтвердження» прикріплюється до аудіо як вотермарка, що підтверджує, що мова дійсно згенерована живою людиною. 

Друге рішення під назвою AI Detect використовує штучний інтелект, щоб ловити штучний інтелект <нарешті ШІ-рекурсія!>. Запропонована компанією OmniSpeech, яка створює програмне забезпечення для оброблення мовлення на основі ШІ, AI Detect вбудовуватиме ML-алгоритми у пристрої з обмеженими обчислювальними потужностями, як-от телефони та навушники, щоб розпізнавати згенеровані ШІ-голоси в режимі реального часу. «Наша мета — мати якийсь ідентифікатор, що співрозмовник на іншому кінці може бути несправжнім», — каже генеральний директор OmniSpeech Девід Пжигода. Використовувати AI Detect можна як на телефонах, так і вбудовуючи його у гарнітуру. 

Останній переможець, DeFake, — це ще один ШІ-інструмент. DeFake додає невеликий шум до запису людського голосу, ускладнюючи точне клонування. Якщо інший ШІ-інструмент використовуватиме цей запис як семпл, щоб скопіювати голос, він не зможе зробити це ідеально, а синтезований голос буде відрізнятися. DeFake є прикладом так званого змагального ШІ — захисної техніки, яка заважає іншим моделям штучного інтелекту працювати належним чином.

DeFake DeFake

Впровадження захисту від аудіодипфейків

I AI Detect, і DeFake перебувають на ранніх стадіях досліджень та розробок. AI Detect поки є лише концепцією, тоді як DeFake потребує банального підвищення ефективності. Водночас розробники усвідомлюють недоліки використання штучного інтелекту для подібних цілей, адже їм постійно треба оновлювати датасети та технології, аби не відставати від ШІ-моделей, що використовується для створення дипфейків. Тобто тут проблема не лише у розробленні власної технології, але й у тому, щоб постійно відстежувати, що відбувається в індустрії.

Тим часом OriginStory перебуває на стадії тестування і працює над тим, щоб зробити технологію стійкою до обману. «Ми проводимо перевірку з багатьма різними користувачами, які намагаються обдурити систему, щоб та вважала, що за мікрофоном стоїть людина, коли її там насправді немає. Після цього ми зрозуміємо, наскільки вона надійна. Важливо мати можливість бути впевненим, що людина на іншому кінці — це дійсно людина», — кажуть розробники.

За словами Наумана Давалатабада, постдокторанта групи розмовних мовних систем Лабораторії комп'ютерних наук та штучного інтелекту Массачусетського технологічного інституту, підхід AI Detect виглядає багатообіцяльно: «Для моделі виявлення фальшивого аудіо важливо працювати на пристрої, щоб зберегти конфіденційність, а не надсилати особисті дані на сервер компанії».

Давалатабад розглядає превентивну стратегію DeFake, яку він порівнює з водяними знаками, як гарне рішення для захисту споживачів від шахрайства, коли їхні мовні дані скомпрометовані або перехоплені. «Однак цей підхід залежить від знання всіх вихідних спікерів і потребує важкої реалізації. Наприклад, просто повторний запис промови з вотермаркою за допомогою іншого мікрофона може повністю або частково усунути ефекти водяного знаку, — додає він. — Підхід OriginStory здається більш надійним, ніж лише програмні вотермарки, оскільки він покладається на біосигнали, які важко відтворити».

Але Давалатабад зазначає, що ще ефективнішою тактикою розв'язання проблеми аудіодипфейків є чотиристоронній підхід, який поєднує кілька стратегій. Першим кроком, за його словами, є нанесення вотермарок на нові аудіозаписи вже зараз, щоб мати можливість їх відстежувати. 

Другий крок — розроблення кращих моделей виявлення, які «мають вирішальне значення для захисту поточних даних, більшість з яких не мають водяних знаків».

Третій крок передбачає розгортання моделей виявлення безпосередньо на пристроях для підвищення безпеки та збереження конфіденційності. Для цього мають бути розроблені кращі алгоритми стиснення моделей, щоб мати можливість розгорнути їх на відносно слабких пристроях. Водночас виробники згодом додаватимуть захисні ШІ-моделі самостійно <в ідеалі>. 

І зрештою Давалатабад наголошує на необхідності залучення законодавців для забезпечення захисту споживачів, одночасно просуваючи захисні ШІ-рішення, де це можливо.

Ще один інструмент, створений компанією Pindrop, отримав нагороду за визнання <recognition award>. Рішення виявляє аудіодипфейки в режимі реального часу, аналізуючи мовлення з інтервалом у 2 секунди та позначаючи ті, які ідентифікуються як потенційно підозрілі.

Підписуйтеся на наші соцмережі

Якщо ви хочете поділитися з читачами SPEKA власним досвідом, розповісти свою історію чи опублікувати колонку на важливу для вас тему, долучайтеся. Відтепер ви можете зареєструватися на сайті SPEKA і самостійно опублікувати свій пост.
50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

OpenAI розробляє новий підхід щодо ШІ з кодовою назвою Strawberry

Олеся Дерзська 19 годин тому

У Британії кандидат до парламенту змушений доводити, що він не ШІ-бот

Олеся Дерзська 12 липня 2024 15:20

Революція у веб-дизайні: 5 сайтів, створених за допомогою штучного інтелекту

Oleksii Udovenko 10 липня 2024 19:35

Що таке агенти штучного інтелекту

Олександр Тартачний 9 липня 2024 09:00

Google в США вимагатиме маркувати ШІ в передвиборчій рекламі

Олеся Дерзська 3 липня 2024 13:12