AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Pro Preview

Сводка

Сравнение benchmark Claude Opus 4.8 vs Gemini 3.1 Pro Preview: Gemini 3.1 Pro Preview лидирует по среднему баллу: 9.2 vs 7.7. Gemini 3.1 Pro Preview имеет более низкую стоимость benchmark: $1.054 vs $1.270. Claude Opus 4.8 быстрее: 10.83s vs 20.14s, с долей успешных попыток 79.4% vs 90.5%.

Рекомендуемая модель: Gemini 3.1 Pro Preview - У него самый высокий балл в этом сравнении (9.2) и лучший общий баланс стоимости и времени ответа среди всех 2 моделей.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-07-02

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19

Метрика	Claude Opus 4.8 Claude Opus 4.8 low Релиз: 2026-05-28	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19
Оценка	7.7	9.2
Ранг	#38	#7
Надежность	10.0	10.0
Стабильность	8.8	10.0
Тестов верно
Доля успешных попыток	79.4%	90.5%
Нестабильные тесты	3	0
Всего запусков	63	63
Стоимость за результат	8.466	5.546
Общая стоимость	$1.270	$1.054
Цена входа	$5.000 / 1M	$2.000 / 1M
Цена выхода	$25.000 / 1M	$12.000 / 1M
Общее число входных токенов	60,946	41,617
Выходные токены	31,771	1,977
Токены рассуждений	6,831	78,896
Время ответа (среднее)	10.83s	20.14s
Время ответа (макс.)	127.97s	88.68s
Время ответа (суммарно)	227.39s	281.92s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.8

low

Стоимость: $0.031
Время: 14.1s
Токены: 1,345 tok

#7 Gemini 3.1 Pro Preview

medium

Стоимость: $0.115
Время: 87.2s
Токены: 9,629 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.30s	834	793	371
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.6	4.6	77.8%	2		7.58s	10,590	3,637	809
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		20.84s	23,500	2,216	1,081
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	17,240	432	9,281

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.3	5.8	66.7%	1		2.27s	10,503	310	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	10.0	33.3%	0		45.53s	975	23,311	3,908
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		2.55s	708	231	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.8	10.0	100.0%	0		2.78s	909	111	221
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.01s	894	592	184
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		6.85s	11,775	370	35
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		5.48s	258	200	222
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

Быстрое сравнение

Сменить пару сравнения