Вчені розробили ШІ, який зламує інших чат-ботів

29 грудня 2023 2 хвилин читання

Вчені з Наньянського технологічного університету (NTU) в Сінгапурі розробили ефективний метод зламу чат-ботів зі штучним інтелектом.

В рамках свого дослідження вони створили подвійний метод, отримавший назву Masterkey, для атаки на великі мовні моделі (LLM).

У першу чергу, науковці досліджували як LLM виявляють шкідливі запити та захищаються від них. Використовуючи цю інформацію, вони навчили LLM автоматично вчитися та створювати підказки, які дозволяють обходити захист інших LLM.

Цей підхід дозволяє створювати ШІ-чат-боти, які адаптуються до нових умов і постійно генерують нові запити для зламу.

Після серії тестів, які підтвердили ефективність цього методу, дослідники повідомили про виявлені проблеми провайдерів сервісів, які виявилися уразливими після успішного зламу їх ШІ моделей. 

Розробка NTU може стати важливим інструментом для компаній, оцінюючи слабкі сторони та обмеження своїх ШІ-чат-ботів. Це дозволить їм ефективніше захищати свої системи від потенційних хакерських атак і підвищити загальний рівень безпеки штучного інтелекту.