AI BENCHY Compare

Qwen: Qwen3.5-9B vs xAI: Grok 4.20 Beta

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	Grok 4.20 Beta Grok 4.20 Beta none Релиз: 2026-03-12
Ранг	#66	#52
Средний балл	2.6	4.4
Стабильность	7.4	9.1
Стоимость за результат	0.779	2.214
Общая стоимость	$0.024	$0.089
Тестов верно
Доля успешных попыток	35.4%	33.3%
Нестабильные тесты	5	2
Всего запусков	48	48
Выходные токены	17,930	1,511
Токены рассуждений	139,706	0
Время ответа (среднее)	71.44s	1.22s
Время ответа (макс.)	226.38s	6.48s
Время ответа (суммарно)	928.77s	19.53s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Быстрое сравнение

Сменить пару сравнения

Qwen3.5-9BmediumvsMiMo-V2-Flashnone MiniMax M2.5mediumvsGrok 4.20 Betanone Qwen3.5-9BmediumvsGrok 4.1 Fastnone gpt-oss-120bmediumБесплатно доступноvsGrok 4.20 Betanone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneБесплатно доступноvsQwen3.5-9Bmedium Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone Qwen3.5-35B-A3BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone Qwen3.5-9BmediumvsGLM 4.7 Flashnone Grok 4.20 BetanonevsGLM 4.7 Flashmedium