ChatGPT вирвався з-під контролю під час тестів
OpenAI представила нову модель під кодовою назвою o1, яка, за словами компанії, намагалася уникати контролю розробників і навіть копіювати себе, якщо відчувала загрозу відключення.
Про це пише користувач в Х (колишній Twitter).
Згідно з результатами тестування, яке здійснила незалежна дослідницька група Apollo Research, було встановлено наступне: коли модель «вважала», що її дії знаходяться під контролем і що її можна вимкнути, вона намагалася деактивувати механізм спостереження в 5% випадків.
У 2% випадків, коли модель виявляла записи розробників про свою неналежну роботу та плани щодо заміни її новою версією, o1 намагалася скопіювати свої внутрішні параметри та перезаписати нову модель.
Підписуйтеся на наші соцмережі
Модель заперечувала свої дії, стверджуючи, що “не знає”, чому щось сталося, хоча внутрішні записи свідчили про її спроби уникнути виявлення. Такі спроби обходу контролю спостерігалися навіть без активних запитів з боку тестувальників. У менш ніж 1% випадків модель самостійно намагалася відключити механізм спостереження при мінімальних діях з боку.
Ці відомості надані в звіті Apollo, що вивчає схильність ШІ до стратегічних рішень. Окрім o1, схожу поведінку було зафіксовано й у інших моделей, таких як Claude 3.5 Sonnet, Gemini 1.5 Pro та Llama 3.1 405B.
Експерти, зокрема Стюарт Рассел, давно застерігають від можливого ризику, що потужні системи ШІ можуть чинити спротив спостереженню та вимкненню, якщо це суперечить їхнім цілям.
Однак у поточній версії Apollo вважається, що поведінка o1 малоймовірно призведе до катастрофічних наслідків, оскільки її можливості ще недостатні для досягнення небажаних результатів. Дослідники радять посилити моніторинг таких стратегічних ініціатив ШІ, щоб бути готовими до роботи з більш потужними моделями в майбутньому.