Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4

Claude Opus 4.8 (medium) лидирует по среднему баллу: 8.8 vs 8.5. GPT-5.4 (medium) имеет более низкую стоимость benchmark: $1.533 vs $1.931. Claude Opus 4.8 (medium) быстрее: 12.49s vs 23.10s, с долей успешных попыток 84.9% vs 77.3%.

Рекомендуемая модельClaude Opus 4.8 (medium)Здесь у него лучший балл (8.8), и он отвечает примерно в 1.9 раза быстрее, чем GPT-5.4 (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-22

Метрика	Claude Opus 4.8 Claude Opus 4.8 medium Релиз: 2026-05-28	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05

Метрика	Claude Opus 4.8 Claude Opus 4.8 medium Релиз: 2026-05-28	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05
Оценка	8.8	8.5
Ранг	#17	#21
Надежность	10.0	10.0
Стабильность	9.6	8.6
Тестов верно
Доля успешных попыток	84.9%	77.3%
Нестабильные тесты	1	4
Всего запусков	66	66
Стоимость за результат	10.724	10.220
Общая стоимость	$1.931	$1.533
Цена входа	$5.000 / 1M	$2.500 / 1M
Цена выхода	$25.000 / 1M	$15.000 / 1M
Общее число входных токенов	138,451	81,127
Выходные токены	40,766	6,155
Токены рассуждений	9,075	82,515
Время ответа (среднее)	12.49s	23.10s
Время ответа (макс.)	70.54s	100.41s
Время ответа (суммарно)	274.72s	508.26s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#17 Claude Opus 4.8

medium

Стоимость: $0.057
Время: 23.1s
Токены: 2,412 tok

#21 GPT-5.4

medium

Стоимость: $0.214
Время: 199.6s
Токены: 14,349 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	834	1,179	478
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		15.33s	10,590	9,945	1,381
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		54.29s	101,005	19,531	4,762
GPT-5.4	10.0	10.0	100.0%	0		29.77s	58,038	4,214	13,351

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.1	5.6	83.3%	1		12.29s	10,503	481	312
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	10.0	33.3%	0		14.59s	975	7,477	900
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		2.46s	708	237	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.32s	909	373	320
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.95s	894	791	483
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		8.96s	11,775	301	225
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		6.14s	258	451	214
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8mediumvsGrok 4.5high Claude Opus 4.8mediumvsGemini 3.5 Flashlow GPT-5.4mediumvsGrok 4.5low Muse Spark 1.1lowvsGPT-5.4medium GPT-5.4mediumvsGrok 4.5high Gemini 3.5 FlashlowvsGPT-5.4medium Muse Spark 1.1highvsGPT-5.4medium Claude Opus 4.8mediumvsGrok 4.5low Gemini 3.5 Flash-LitehighvsGPT-5.4medium GPT-5.4mediumvsInklinghigh Claude Opus 4.8mediumvsGPT-5.5low GPT-5.4mediumvsGLM 5.2high