Anthropic: Claude Opus 4.6 vs OpenAI: GPT-5.3 Chat

Claude Opus 4.6 (medium) лидирует по среднему баллу: 7.7 vs 7.5. GPT-5.3 Chat имеет более низкую стоимость benchmark: $0.571 vs $3.059. GPT-5.3 Chat быстрее: 6.88s vs 34.27s, с долей успешных попыток 63.6% vs 68.2%.

Рекомендуемая модельGPT-5.3 ChatЕго балл близок к лучшему здесь (7.5 против 7.7), при этом он примерно в 5.4 раза дешевле, чем Claude Opus 4.6 (medium).

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-25

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	GPT-5.3 Chat GPT-5.3 Chat none Релиз: 2026-03-03
Оценка	7.7	7.5
Ранг	#50	#62
Надежность	10.0	10.0
Стабильность	8.8	8.2
Тестов верно
Доля успешных попыток	63.6%	68.2%
Нестабильные тесты	3	5
Всего запусков	66	66
Стоимость за результат	23.524	4.387
Общая стоимость	$3.059	$0.571
Цена входа	$5.000 / 1M	$1.750 / 1M
Цена выхода	$25.000 / 1M	$14.000 / 1M
Общее число входных токенов	108,615	78,990
Выходные токены	72,286	30,854
Токены рассуждений	28,315	0
Время ответа (среднее)	34.27s	6.88s
Время ответа (макс.)	151.51s	18.33s
Время ответа (суммарно)	513.99s	151.31s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#50 Claude Opus 4.6

medium

Неверный SVG

Стоимость: $0.000
Время: 300.0s
Токены: 0 tok

#62 GPT-5.3 Chat

none

Стоимость: $0.008
Время: 8.1s
Токены: 634 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
GPT-5.3 Chat	6.7	8.1	58.3%	1		3.86s	606	3,167	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
GPT-5.3 Chat	5.6	4.7	55.6%	2		10.52s	7,302	6,632	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		114.08s	76,073	33,018	9,509
GPT-5.3 Chat	10.0	10.0	100.0%	0		15.07s	55,800	6,851	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.21s	7,140	942	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
GPT-5.3 Chat	3.5	4.4	33.3%	2		13.01s	723	8,264	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
GPT-5.3 Chat	4.6	10.0	0.0%	0		1.99s	477	319	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
GPT-5.3 Chat	9.8	10.0	100.0%	0		3.51s	660	1,491	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.99s	642	1,758	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	5,445	861	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
GPT-5.3 Chat	3.0	10.0	0.0%	0		4.38s	195	569	0

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.6mediumvsGPT-5.6 Lunahigh Kimi K2.7 CodemediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5 Plus 2026-02-15medium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh Nemotron 3 UltramediumБесплатно доступноvsGPT-5.3 Chatnone Claude Opus 4.6mediumvsDeepSeek V4 Prohigh GPT-5.3 ChatnonevsQwen3.5-27Bmedium GPT-5.3 ChatnonevsGrok Build 0.1medium LongCat 2.0mediumvsGPT-5.3 Chatnone MiniMax M3mediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3 Chatnone KAT-Coder-Pro V2.5lowvsGPT-5.3 Chatnone