AI BENCHY Compare

Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03

Метрика	Claude Opus 4.8 Claude Opus 4.8 none Релиз: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Релиз: 2026-03-03
Оценка	7.3	7.5
Ранг	#63	#53
Надежность	10.0	10.0
Стабильность	9.2	9.7
Тестов верно
Доля успешных попыток	65.0%	63.3%
Нестабильные тесты	2	1
Всего запусков	60	60
Стоимость за результат	4.324	0.142
Общая стоимость	$0.519	$0.017
Цена входа	$5.000 / 1M	$0.250 / 1M
Цена выхода	$25.000 / 1M	$1.500 / 1M
Выходные токены	8,098	5,541
Токены рассуждений	0	0
Время ответа (среднее)	3.51s	1.23s
Время ответа (макс.)	17.73s	3.39s
Время ответа (суммарно)	70.19s	24.68s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	1,472	0
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	1,092	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	6.8	10.0	50.0%	0		3.59s	1,323	0
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.06s	664	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.5	10.0	100.0%	0		17.73s	3,259	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	339	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	399	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	5.3	7.2	44.4%	1		1.66s	61	0
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	568	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	230	0
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	69	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	783	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	1,045	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	9	0

Быстрое сравнение

Сменить пару сравнения

Claude Opus 4.8nonevsQwen3.5-35B-A3Bmedium Claude Opus 4.8nonevsRing-2.6-1Tmedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5.1medium Claude Opus 4.8nonevsGPT-5.4 Minimedium Claude Opus 4.8nonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.6mediumБесплатно доступно Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Claude Opus 4.8nonevsGLM 5V Turbomedium Claude Opus 4.8nonevsGPT-5.4 Nanomedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5V Turbomedium