Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.4

Claude Opus 4.7 (medium) лидирует по среднему баллу: 8.7 vs 8.5. Claude Opus 4.7 (medium) имеет более низкую стоимость benchmark: $1.477 vs $1.533. Claude Opus 4.7 (medium) быстрее: 7.61s vs 23.10s, с долей успешных попыток 83.3% vs 77.3%.

Рекомендуемая модельClaude Opus 4.7 (medium)Здесь у него лучший балл (8.7), и он отвечает примерно в 3.0 раза быстрее, чем GPT-5.4 (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-18

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	GPT-5.4 GPT-5.4 medium Релиз: 2026-03-05
Оценка	8.7	8.5
Ранг	#15	#18
Надежность	10.0	10.0
Стабильность	9.6	8.6
Тестов верно
Доля успешных попыток	83.3%	77.3%
Нестабильные тесты	1	4
Всего запусков	66	66
Стоимость за результат	8.201	10.220
Общая стоимость	$1.477	$1.533
Цена входа	$5.000 / 1M	$2.500 / 1M
Цена выхода	$25.000 / 1M	$15.000 / 1M
Общее число входных токенов	145,252	81,127
Выходные токены	24,948	6,155
Токены рассуждений	5,042	82,515
Время ответа (среднее)	7.61s	23.10s
Время ответа (макс.)	65.40s	100.41s
Время ответа (суммарно)	159.91s	508.26s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#15 Claude Opus 4.7

medium

Стоимость: $0.059
Время: 26.8s
Токены: 2,475 tok

#18 GPT-5.4

medium

Стоимость: $0.214
Время: 199.6s
Токены: 14,349 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.4	8.3	10.0	75.0%	0		4.11s	606	240	1,511

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.4	8.8	7.8	88.9%	1		44.36s	7,305	433	24,216

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		43.42s	104,347	15,459	3,928
GPT-5.4	10.0	10.0	100.0%	0		29.77s	58,038	4,214	13,351

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.4	10.0	10.0	100.0%	0		5.32s	7,140	234	804

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.4	5.3	7.2	44.4%	1		74.27s	619	61	34,748

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.4	4.7	3.1	33.3%	1		4.92s	477	145	321

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.4	10.0	10.0	100.0%	0		3.11s	660	93	897

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.4	8.2	7.2	88.9%	1		9.14s	642	441	3,815

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.4	10.0	10.0	100.0%	0		13.28s	5,445	264	1,031

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.4	3.0	10.0	0.0%	0		13.95s	195	30	1,821

Быстрое сравнение

Сменить пару сравнения

GPT-5.4mediumvsGrok 4.5low Claude Opus 4.7mediumvsGrok 4.5high Claude Opus 4.7mediumvsGemini 3.5 Flashlow Muse Spark 1.1lowvsGPT-5.4medium Claude Opus 4.7mediumvsGrok 4.5low GPT-5.4mediumvsGrok 4.5high Gemini 3.5 FlashlowvsGPT-5.4medium Claude Opus 4.7mediumvsMuse Spark 1.1low Muse Spark 1.1highvsGPT-5.4medium GPT-5.4mediumvsInklinghigh GPT-5.4mediumvsGLM 5.2high Kimi K3maxvsGPT-5.4medium