AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite low Релиз: 2026-05-08

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite low Релиз: 2026-05-08
Оценка	7.3	7.4
Ранг	#63	#54
Надежность	10.0	10.0
Стабильность	9.2	9.2
Тестов верно
Доля успешных попыток	65.0%	65.0%
Нестабильные тесты	2	2
Всего запусков	60	60
Стоимость за результат	4.324	0.217
Общая стоимость	$0.519	$0.026
Цена входа	$5.000 / 1M	$0.250 / 1M
Цена выхода	$25.000 / 1M	$1.500 / 1M
Выходные токены	8,098	2,726
Токены рассуждений	0	8,951
Время ответа (среднее)	3.51s	1.92s
Время ответа (макс.)	17.73s	5.66s
Время ответа (суммарно)	70.19s	38.45s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Gemini 3.1 Flash Lite	7.3	6.2	75.0%	2		1.84s	1,013	1,548

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Gemini 3.1 Flash Lite	6.8	10.0	50.0%	0		1.71s	465	763

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		4.48s	348	975

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.44s	291	697

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Gemini 3.1 Flash Lite	5.3	10.0	33.3%	0		1.52s	15	1,214

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		1.37s	69	438

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.52s	72	760

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.40s	210	1,191

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		5.66s	234	945

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		1.46s	9	420

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash LitelowvsGLM 5.1medium Gemini 3.1 Flash LitelowvsGPT-5.3 Chatnone Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitelowvsMiMo-V2.5medium Gemini 3.1 Flash LitelowvsKimi K2.6mediumБесплатно доступно Claude Opus 4.8nonevsRing-2.6-1Tmedium Claude Opus 4.8nonevsGPT-5.4 Minimedium Gemini 3.1 Flash LitelowvsStep 3.5 Flashmedium Claude Opus 4.8nonevsGPT-5.2medium Gemini 3.1 Flash LitelowvsGLM 5V Turbomedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium