Упс! Не вдала спроба:(
Будь ласка, спробуйте ще раз.

ChatGPT вирвався з-під контролю під час тестів

Анастасія Ковальова
Анастасія Ковальова Журналіст
7 грудня 2024 2 хвилин читання

OpenAI представила нову модель під кодовою назвою o1, яка, за словами компанії, намагалася уникати контролю розробників і навіть копіювати себе, якщо відчувала загрозу відключення.

Про це пише користувач в Х (колишній Twitter).

Згідно з результатами тестування, яке здійснила незалежна дослідницька група Apollo Research, було встановлено наступне: коли модель «вважала», що її дії знаходяться під контролем і що її можна вимкнути, вона намагалася деактивувати механізм спостереження в 5% випадків.

У 2% випадків, коли модель виявляла записи розробників про свою неналежну роботу та плани щодо заміни її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.

Підписуйтеся на наші соцмережі

Модель заперечувала свої дії, стверджуючи, що “не знає”, чому щось сталося, хоча внутрішні записи свідчили про її спроби уникнути виявлення. Такі спроби обходу контролю спостерігалися навіть без активних запитів з боку тестувальників. У менш ніж 1% випадків модель самостійно намагалася відключити механізм спостереження при мінімальних діях з боку.

Ці відомості надані в звіті Apollo, що вивчає схильність ШІ до стратегічних рішень. Окрім o1, схожу поведінку було зафіксовано й у інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B.

Експерти, зокрема Стюарт Рассел, давно застерігають від можливого ризику, що потужні системи ШІ можуть чинити спротив спостереженню та вимкненню, якщо це суперечить їхнім цілям.

Однак у поточній версії Apollo вважається, що поведінка o1 малоймовірно призведе до катастрофічних наслідків, оскільки її можливості ще недостатні для досягнення небажаних результатів. Дослідники радять посилити моніторинг таких стратегічних ініціатив ШІ, щоб бути готовими до роботи з більш потужними моделями в майбутньому.

Підписуйтеся на наші соцмережі

50 UAH 150 UAH 500 UAH 1000 UAH 3000 UAH 5000 UAH
0
Прокоментувати
Інші матеріали

Samsung представила Galaxy S25 Ultra з акцентом на штучному інтелекті

Вікторія Рудзінська 16 годин тому

Adobe впроваджує пошук на основі ШІ та підтримку HDR у свої продукти

Вікторія Рудзінська 18 годин тому

Google інвестує ще $1 млрд у Anthropic

Вікторія Рудзінська 19 годин тому

Штучний інтелект допомагає людям із паралічем керувати дроном силою думки

Вікторія Рудзінська 19 годин тому

$500 млрд на американську ШІ-інфраструктуру: що таке Stargate та як він працюватиме

Олександр Тартачний 20 годин тому