AI BENCHY Compare

Сравниваемые модели

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-02

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Релиз: 2025-11-18	GLM 5 Turbo GLM 5 Turbo medium Релиз: 2026-03-15

Метрика	Gemma 4 31B Gemma 4 31B medium Релиз: 2026-04-02	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Релиз: 2025-11-18	GLM 5 Turbo GLM 5 Turbo medium Релиз: 2026-03-15
Оценка	8.6	8.7	8.0
Ранг	#5	#4	#19
Стабильность	9.6	10.0	7.9
Тестов верно
Доля успешных попыток	80.4%	82.4%	76.5%
Нестабильные тесты	1	0	5
Всего запусков	51	51	51
Стоимость за результат	0.109	1.406	1.509
Общая стоимость	$0.015	$0.197	$0.166
???? ?????	$0.140 / 1M	$0.000 / 1M	$1.200 / 1M
???? ??????	$0.400 / 1M	$0.000 / 1M	$4.000 / 1M
Выходные токены	9,568	1,508	11,865
Токены рассуждений	22,501	10,084	35,632
Время ответа (среднее)	21.81s	9.06s	17.98s
Время ответа (макс.)	68.92s	26.24s	194.23s
Время ответа (суммарно)	327.16s	90.58s	305.72s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.89s	962	2,046
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		14.99s	149	1,485
GLM 5 Turbo	10.0	10.0	100.0%	0		4.82s	362	3,137

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Gemini 3 PRO Preview	3.0	10.0	0.0%	0		10.37s	351	952
GLM 5 Turbo	10.0	10.0	100.0%	0		13.88s	390	2,037

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		21.11s	1,822	2,951
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		10.84s	279	3,156
GLM 5 Turbo	10.0	10.0	100.0%	0		6.19s	577	3,632

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	7.7	10.0	66.7%	0		38.48s	4,349	8,985
Gemini 3 PRO Preview	5.3	10.0	33.3%	0		7.01s	15	1,195
GLM 5 Turbo	2.9	4.4	22.2%	2		71.07s	9,665	19,279

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		9.57s	105	888
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		9.34s	78	374
GLM 5 Turbo	6.1	3.1	66.7%	1		10.05s	60	2,216

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	10.0	10.0	100.0%	0		12.76s	533	2,035
Gemini 3 PRO Preview	9.8	10.0	100.0%	0		3.26s	69	754
GLM 5 Turbo	10.0	10.0	100.0%	0		5.38s	255	2,183

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	8.8	7.9	88.9%	1		27.63s	1,797	5,596
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		3.91s	243	1,197
GLM 5 Turbo	7.3	5.8	55.6%	2		5.44s	315	2,702

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Gemini 3 PRO Preview	10.0	10.0	100.0%	0		11.96s	324	971
GLM 5 Turbo	10.0	10.0	100.0%	0		9.84s	241	446

Быстрое сравнение

Сменить пару сравнения

Gemini 3.1 Flash Lite PreviewlowvsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsGLM 5 Turbomedium Gemini 3.1 Flash Lite PreviewnonevsGLM 5 Turbomedium GPT-5.2 ChatnonevsGLM 5 Turbomedium GPT-5.3 ChatnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewlowvsGLM 5 Turbomedium Gemma 4 31BmediumvsGPT-5.2 Chatnone Claude Sonnet 4.6nonevsGLM 5 Turbomedium Gemini 3 PRO PreviewmediumvsGPT-5.2 Chatnone Gemma 4 31BmediumvsGPT-5.3 Chatnone Gemini 3 PRO PreviewmediumvsGPT-5.3 Chatnone Qwen3.5 Plus 2026-02-15nonevsGLM 5 Turbomedium