AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Google: Gemini 2.5 Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-16

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17

Метрика	Claude Opus 4.7 Claude Opus 4.7 medium Релиз: 2026-04-16	Gemini 2.5 Flash Gemini 2.5 Flash medium Релиз: 2025-06-17
Оценка	9.2	8.2
Ранг	#3	#15
Стабильность	10.0	9.5
Тестов верно
Доля успешных попыток	88.9%	75.9%
Нестабильные тесты	0	1
Всего запусков	54	54
Стоимость за результат	2.790	2.454
Общая стоимость	$0.447	$0.319
???? ?????	$5.000 / 1M	$0.300 / 1M
???? ??????	$25.000 / 1M	$2.500 / 1M
Выходные токены	5,375	1,898
Токены рассуждений	1,341	122,273
Время ответа (среднее)	3.53s	12.12s
Время ответа (макс.)	21.45s	95.48s
Время ответа (суммарно)	60.03s	218.12s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	348	0
Gemini 2.5 Flash	8.4	10.0	75.0%	0		6.30s	255	10,233

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		6.41s	1,141	257
Gemini 2.5 Flash	10.0	10.0	100.0%	0		16.23s	522	10,350

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	2,369	1,084
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	324	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	51	0
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	256	0
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	114	0
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		2.51s	399	0
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	373	0
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140

Быстрое сравнение

Сменить пару сравнения

Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGemini 3 Flash Previewlow Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Claude Opus 4.7nonevsGemini 2.5 Flashmedium Claude Opus 4.7mediumvsGemini 3 Flash Previewnone Claude Opus 4.7mediumvsGemini 3.1 Flash Lite Previewlow Claude Opus 4.7mediumvsGPT-5.2 Chatnone Claude Opus 4.7mediumvsGemini 3.1 Flash Lite Previewnone Gemini 2.5 FlashmediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.7mediumvsGPT-5.3 Chatnone Gemini 2.5 FlashmediumvsGLM 5none