С рекордните 82.7% на Terminal-Bench 2.0, GPT-5.5 изпреварва Claude Mythos и поставя нов стандарт за интелигентност при работа в терминал. За да разберем мащаба на този скок, трябва да погледнем суровите данни. Terminal-Bench 2.0 е един от най-трудните тестове, оценяващ способността на AI да навигира в команден ред и да координира сложни софтуерни вериги. Резултатът от 82.7% поставя GPT-5.5 пред Claude Mythos (82.0%) и далеч пред Claude Opus 4.7 (69.4%). В теста GDPval, който измерва знания в 44 професионални области, моделът постига 84.9%, достигайки или надминавайки нивото на човешки експерти. Тези цифри не са просто статистика – те показват, че AI вече може да се справя със задачи, които изискват часове логическо мислене и планиране. В CyberGym, тест за киберсигурност, GPT-5.5 отбелязва 81.8%, което го прави безценен за откриване на уязвимости. Конкуренцията с Anthropic остава ожесточена, но OpenAI успява да предложи по-добра интеграция за масовия потребител чрез ChatGPT и Codex.
| Модел | Terminal-Bench 2.0 (%) | OSWorld-Verified (%) | SWE-Bench Pro (%) | Цена (In/Out за 1M) |
|---|
| GPT-5.5 | 82.7% | 78.7% | 58.6% | $5 / $30 |
| Claude Opus 4.7 | 69.4% | 78.0% | 64.3% | $5 / $25 |
| Claude Mythos | 82.0% | 78.0% | 77.8% | $25 / $125 |
| GPT-5.4 | 75.1% | 75.0% | 42.0% | $2.50 / $15 |
Освен това, в FrontierMath Tier 4, GPT-5.5 постига 35.4%, което е огромен напредък спрямо 16.7% на предходните модели. Това показва, че моделът не просто помни факти, а може да решава напълно нови математически проблеми, които досега бяха непосилни за изкуствения интелект.