Claude Opus 4.8 vs Gemini 3.1 Pro Preview (medium)

Gemini 3.1 Pro Preview (medium) лидирует по среднему баллу: 9.2 vs 7.3. Claude Opus 4.8 имеет более низкую стоимость benchmark: $1.166 vs $1.361. Claude Opus 4.8 быстрее: 4.91s vs 21.47s, с долей успешных попыток 63.6% vs 90.9%.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-25

Ранг: #74
Общее число выходных токенов: 16,797
Время ответа (среднее): 4.91s
Общая стоимость: $1.166

Ранг: #10
Общее число выходных токенов: 97,958
Время ответа (среднее): 21.47s
Общая стоимость: $1.361

Рекомендуемая модель Gemini 3.1 Pro Preview (medium)

У него самый высокий балл в этом сравнении (9.2) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.

Подробное сравнение

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19
Оценка	7.3	9.2
Ранг	#74	#10
Надежность	10.0	10.0
Стабильность	9.2	10.0
Тестов верно
Доля успешных попыток	63.6%	90.9%
Нестабильные тесты	2	0
Всего запусков	66	66
Стоимость за результат	8.969	6.801
Общая стоимость	$1.166	$1.361
Цена входа	$5.000 / 1M	$2.000 / 1M
Цена выхода	$25.000 / 1M	$12.000 / 1M
Общее число входных токенов	149,206	92,287
Выходные токены	16,797	5,232
Токены рассуждений	0	92,726
Время ответа (среднее)	4.91s	21.47s
Время ответа (макс.)	35.03s	88.68s
Время ответа (суммарно)	108.03s	322.08s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#74 Claude Opus 4.8

none

Стоимость: $0.053
Время: 22.0s
Токены: 2,253 tok

#10 Gemini 3.1 Pro Preview

medium

Стоимость: $0.115
Время: 87.2s
Токены: 9,629 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Категория:

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Gemini 3.1 Pro Preview	9.8	10.0	100.0%	0		40.39s	67,910	3,687	23,111

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

Быстрое сравнение

Сменить пару сравнения

Claude Opus 5highvsGemini 3.1 Pro Previewmedium Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Pro PreviewmediumvsGPT-5.5low Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Gemini 3.1 Pro PreviewmediumvsGPT-5.6 Solhigh Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium