Навигация
AI BENCHY
Advertise here

AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.5

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика Claude Opus 4.8 Claude Opus 4.8 medium Релиз: 2026-05-28 GPT-5.5 GPT-5.5 medium Релиз: 2026-04-24
Оценка 8.7 8.7
Ранг #12 #11
Надежность 10.0 10.0
Стабильность 9.6 8.8
Тестов верно
Доля успешных попыток 83.3% 86.7%
Нестабильные тесты 1 3
Всего запусков 60 60
Стоимость за результат 6.285 21.884
Общая стоимость $1.006 $3.502
Цена входа $5.000 / 1M $5.000 / 1M
Цена выхода $25.000 / 1M $30.000 / 1M
Выходные токены 23,201 1,964
Токены рассуждений 5,901 109,481
Время ответа (среднее) 9.34s 37.88s
Время ответа (макс.) 38.03s 332.10s
Время ответа (суммарно) 186.84s 757.66s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 1,179 478
GPT-5.5 10.0 10.0 100.0% 0 4.66s 250 1,335
Программирование Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 14.97s 6,651 1,381
GPT-5.5 8.2 6.7 83.3% 1 69.68s 341 19,515
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 9.8 10.0 100.0% 0 38.03s 5,260 1,588
GPT-5.5 10.0 10.0 100.0% 0 19.29s 312 2,841
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 7.1 5.6 83.3% 1 12.29s 481 312
GPT-5.5 10.0 10.0 100.0% 0 4.18s 234 593
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 5.3 10.0 33.3% 0 14.15s 7,477 900
GPT-5.5 5.3 7.2 44.4% 1 164.14s 67 79,625
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 2.46s 237 0
GPT-5.5 10.0 10.0 100.0% 0 4.16s 138 223
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.32s 373 320
GPT-5.5 10.0 10.0 100.0% 0 3.36s 93 538
Решение головоломок Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 3.95s 791 483
GPT-5.5 10.0 10.0 100.0% 0 6.76s 241 2,225
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 10.0 10.0 100.0% 0 8.96s 301 225
GPT-5.5 10.0 10.0 100.0% 0 10.57s 258 832
Эрудиция Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Claude Opus 4.8 3.0 10.0 0.0% 0 6.14s 451 214
GPT-5.5 2.8 1.6 33.3% 1 37.86s 30 1,754

Быстрое сравнение

Сменить пару сравнения