AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Gemini 3 PRO Preview

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-29

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Релиз: 2025-11-18

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Релиз: 2025-11-18
Оценка	7.3	8.1
Ранг	#65	#22
Надежность	10.0	Н/Д
Стабильность	9.2	10.0
Тестов верно
Доля успешных попыток	65.0%	73.7%
Нестабильные тесты	2	0
Всего запусков	60	60
Стоимость за результат	4.324	1.406
Общая стоимость	$0.519	$0.197
Цена входа	$5.000 / 1M	$0.000 / 1M
Цена выхода	$25.000 / 1M	$0.000 / 1M
Выходные токены	8,098	1,490
Токены рассуждений	0	10,102
Время ответа (среднее)	3.51s	9.05s
Время ответа (макс.)	17.73s	26.24s
Время ответа (суммарно)	70.19s	90.53s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		14.99s	149	1,485

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Gemini 3 PRO Preview	3.0	10.0	0.0%	0		0ms	0	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Gemini 3 PRO Preview	3.0	10.0	0.0%	0		10.37s	351	952

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		10.84s	279	3,156

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Gemini 3 PRO Preview	5.3	10.0	33.3%	0		7.01s	15	1,195

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		9.34s	78	374

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Gemini 3 PRO Preview	9.8	10.0	100.0%	0		3.26s	69	754

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		3.88s	225	1,215

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		11.96s	324	971

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Gemini 3 PRO Preview	0.0	0.0	0.0%	0		0ms	0	0

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8nonevsDeepSeek V3.2medium Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Opus 4.8nonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsGPT-5 Minimedium Claude Opus 4.8nonevsKimi K2.6mediumБесплатно доступно Claude Opus 4.8nonevsMiMo-V2.5medium