AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs OpenAI: GPT-5.4 Nano

Сводка

Сравнение benchmark Claude Opus 4.8 vs GPT-5.4 Nano (medium): GPT-5.4 Nano (medium) лидирует по среднему баллу: 7.5 vs 7.2. GPT-5.4 Nano (medium) имеет более низкую стоимость benchmark: $0.107 vs $0.539. Claude Opus 4.8 быстрее: 3.48s vs 11.95s, с долей успешных попыток 61.9% vs 63.5%.

Рекомендуемая модель: GPT-5.4 Nano (medium) - Здесь у него лучший балл (7.5), при этом он примерно в 5.1 раза дешевле, чем Claude Opus 4.8.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-10

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	GPT-5.4 Nano GPT-5.4 Nano medium Релиз: 2026-03-17

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	GPT-5.4 Nano GPT-5.4 Nano medium Релиз: 2026-03-17
Оценка	7.2	7.5
Ранг	#70	#59
Надежность	10.0	10.0
Стабильность	9.2	8.4
Тестов верно
Доля успешных попыток	61.9%	63.5%
Нестабильные тесты	2	4
Всего запусков	63	63
Стоимость за результат	4.485	0.969
Общая стоимость	$0.539	$0.107
Цена входа	$5.000 / 1M	$0.200 / 1M
Цена выхода	$25.000 / 1M	$1.250 / 1M
Общее число входных токенов	67,104	35,434
Выходные токены	8,107	3,014
Токены рассуждений	0	76,520
Время ответа (среднее)	3.48s	11.95s
Время ответа (макс.)	17.73s	94.06s
Время ответа (суммарно)	73.00s	250.98s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#70 Claude Opus 4.8

none

Стоимость: $0.053
Время: 22.0s
Токены: 2,253 tok

#59 GPT-5.4 Nano

medium

Стоимость: $0.007
Время: 24.6s
Токены: 4,943 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
GPT-5.4 Nano	8.3	10.0	75.0%	0		4.52s	606	683	2,254

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
GPT-5.4 Nano	6.1	4.7	66.7%	2		19.12s	7,305	516	20,778

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	29,658	3,259	0
GPT-5.4 Nano	9.8	10.0	100.0%	0		24.13s	12,345	349	5,719

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		2.54s	7,140	234	516

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
GPT-5.4 Nano	5.9	7.2	55.6%	1		38.18s	619	60	43,325

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
GPT-5.4 Nano	4.5	10.0	0.0%	0		4.15s	477	179	443

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
GPT-5.4 Nano	9.8	10.0	100.0%	0		1.88s	660	95	521

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
GPT-5.4 Nano	4.1	7.2	22.2%	1		3.79s	642	594	1,408

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
GPT-5.4 Nano	10.0	10.0	100.0%	0		7.71s	5,445	234	382

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
GPT-5.4 Nano	3.0	10.0	0.0%	0		4.81s	195	70	1,174

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8nonevsGemma 4 26B A4BmediumБесплатно доступно DeepSeek V4 ProhighvsGPT-5.4 Nanomedium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3 Flash PreviewlowvsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.7 Flashhigh Claude Opus 4.8nonevsGLM 5.1medium Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsLaguna XS 2.1mediumБесплатно доступно Claude Opus 4.8nonevsMiMo-V2.5-Promedium Claude Opus 4.8nonevsSeed-2.0-Minimedium GPT-5.4 NanomediumvsStep 3.7 Flashlow Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium