AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs OpenAI: GPT-5.3-Codex

Сводка

GPT-5.3-Codex (medium) лидирует по среднему баллу: 8.9 vs 8.7. Claude Opus 4.7 (medium) имеет более низкую стоимость benchmark: $0.679 vs $0.740. Claude Opus 4.7 (medium) быстрее: 4.73s vs 16.22s, с долей успешных попыток 82.5% vs 82.5%.

Рекомендуемая модельClaude Opus 4.7 (medium)Его балл близок к лучшему здесь (8.7 против 8.9), и он отвечает примерно в 3.4 раза быстрее, чем GPT-5.3-Codex (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-14

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	GPT-5.3-Codex GPT-5.3-Codex medium Релиз: 2026-02-05
Оценка	8.7	8.9
Ранг	#16	#13
Надежность	10.0	10.0
Стабильность	9.6	8.5
Тестов верно
Доля успешных попыток	82.5%	82.5%
Нестабильные тесты	1	4
Всего запусков	63	63
Стоимость за результат	3.991	4.932
Общая стоимость	$0.679	$0.740
Цена входа	$5.000 / 1M	$1.750 / 1M
Цена выхода	$25.000 / 1M	$14.000 / 1M
Общее число входных токенов	65,406	34,299
Выходные токены	11,858	2,357
Токены рассуждений	2,198	46,189
Время ответа (среднее)	4.73s	16.22s
Время ответа (макс.)	23.18s	100.93s
Время ответа (суммарно)	94.51s	340.67s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#16 Claude Opus 4.7

medium

Стоимость: $0.059
Время: 26.8s
Токены: 2,475 tok

#13 GPT-5.3-Codex

medium

Стоимость: $0.049
Время: 54.9s
Токены: 3,580 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.6	7.2	77.8%	1		12.96s	10,635	7,629	1,114
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.7mediumvsGPT-5.2 Chatnone Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Claude Opus 4.7mediumvsDeepSeek V4 Flashhigh Claude Opus 4.7mediumvsGPT-5.6 Terrahigh Claude Opus 4.7mediumvsGemini 3.5 Flashlow Claude Opus 4.7mediumvsGPT-5.5low Claude Opus 4.7mediumvsGPT-5.6 Solhigh DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium Claude Opus 4.7mediumvsGLM 5.2high Claude Opus 4.7mediumvsKAT-Coder-Pro V2.5low Claude Opus 4.7mediumvsGPT-5.6 Sollow Claude Opus 4.7mediumvsGrok 4.5low