AI BENCHY Compare

Qwen: Qwen3.5-9B vs GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-02

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Релиз: Дата релиза неизвестна

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT none Релиз: Дата релиза неизвестна
Оценка	4.5	3.0
Ранг	#83	#88
Стабильность	7.0	10.0
Тестов верно
Доля успешных попыток	35.3%	0.0%
Нестабильные тесты	6	0
Всего запусков	51	48
Стоимость за результат	0.787	0.000
Общая стоимость	$0.024	$0.000
???? ?????	$0.050 / 1M	$0.000 / 1M
???? ??????	$0.150 / 1M	$0.000 / 1M
Выходные токены	18,141	0
Токены рассуждений	141,204	0
Время ответа (среднее)	69.21s	0ms
Время ответа (макс.)	226.38s	0ms
Время ответа (суммарно)	968.99s	0ms

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
GLM 5v Turbo X Ai/grok 4.20 Google/gemma 4 31b IT	3.0	10.0	0.0%	0		0ms	0	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium Nemotron 3 SupernoneБесплатно доступноvsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3.5-9Bmedium Trinity Large PreviewnoneБесплатно доступноvsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone Qwen3.5-9BmediumvsGrok 4.20none