AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Google: Gemini 3.1 Pro Preview

Сводка

Сравнение benchmark Claude Opus 4.6 vs Gemini 3.1 Pro Preview: Gemini 3.1 Pro Preview лидирует по среднему баллу: 9.2 vs 7.7. Gemini 3.1 Pro Preview имеет более низкую стоимость benchmark: $1.054 vs $2.053. Gemini 3.1 Pro Preview быстрее: 20.14s vs 25.89s, с долей успешных попыток 61.9% vs 90.5%.

Рекомендуемая модель: Gemini 3.1 Pro Preview - Здесь у него лучший балл (9.2), при этом он примерно в 1.9 раза дешевле, чем Claude Opus 4.6.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19

Метрика	Claude Opus 4.6 Claude Opus 4.6 medium Релиз: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Релиз: 2026-02-19
Оценка	7.7	9.2
Ранг	#38	#7
Надежность	10.0	10.0
Стабильность	8.8	10.0
Тестов верно
Доля успешных попыток	61.9%	90.5%
Нестабильные тесты	3	0
Всего запусков	63	63
Стоимость за результат	17.103	5.546
Общая стоимость	$2.053	$1.054
Цена входа	$5.000 / 1M	$2.000 / 1M
Цена выхода	$25.000 / 1M	$12.000 / 1M
Общее число входных токенов	53,227	41,617
Выходные токены	47,446	1,977
Токены рассуждений	24,000	78,896
Время ответа (среднее)	25.89s	20.14s
Время ответа (макс.)	83.40s	88.68s
Время ответа (суммарно)	362.49s	281.92s

Генерация showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#38 Claude Opus 4.6

medium

Неверный SVG

Стоимость: $0.000
Время: 300.0s
Токены: 0 tok

#7 Gemini 3.1 Pro Preview

medium

Стоимость: $0.115
Время: 87.2s
Токены: 9,629 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	840	986	1,071
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	498	112	3,218

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	5.7	7.1	44.4%	1		30.10s	8,522	13,057	4,121
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0		40.17s	8,124	435	41,247

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	20,685	8,178	5,194
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	17,240	432	9,281

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	8,676	691	757
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	7,265	279	3,904

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	674	14,642	8,687
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	635	18	12,424

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	564	188	292
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	490	108	1,179

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	792	266	467
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	621	72	2,236

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	7.7	10.0	66.7%	0		4.71s	816	532	630
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.90s	570	235	3,128

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	11,454	861	329
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	6,018	274	982

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Claude Opus 4.6	3.0	10.0	0.0%	0		63.24s	204	8,045	2,452
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		6.27s	156	12	1,297

Быстрое сравнение

Сменить пару сравнения