Штучний інтелект розв’язує лише 2% складних математичних задач
Найпередовіші моделі штучного інтелекту поки що не можуть скласти конкуренцію людському розуму в розв’язанні складних математичних задач, повідомляє Livescience. Згідно з дослідженням інституту Epoch AI, тест FrontierMath показав, що моделі ШІ розв’язали лише 2% завдань, створених провідними математиками світу.
Що таке FrontierMath
Новий тест FrontierMath розробили для перевірки здатності ШІ вирішувати завдання докторського рівня. Над створенням задач працювали професори математики, включаючи лауреатів Філдсівської премії.
Підписуйтеся на наші соцмережі
До тесту увійшли завдання з теорії чисел, алгебраїчної геометрії та інших галузей. Їх немає у навчальних даних сучасних моделей ШІ, що забезпечує чесність оцінювання.
Якими були результати тестування
Шість провідних моделей ШІ протестували на FrontierMath:
- Gemini 1.5 Pro (002) від Google і Claude 3.5 Sonnet від Anthropic змогли розв’язати 2% задач.
- o1-preview, o1-mini, GPT-4o від OpenAI показали результат у 1% правильних відповідей.
- Grok-2 Beta від xAI взагалі не змогла розв’язати жодної задачі.
Навіть коли моделі знаходили правильні відповіді, це не завжди свідчило про глибоке математичне розуміння. Дослідники зазначають, що деякі результати були отримані через симуляції або обчислювальні алгоритми без справжньої аналітичної роботи.