AI BENCHY Compare

Qwen: Qwen3.5-9B vs xAI: Grok 4.1 Fast

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-04-26

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	Grok 4.1 Fast Grok 4.1 Fast none Релиз: 2025-11-19

Метрика	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02	Grok 4.1 Fast Grok 4.1 Fast none Релиз: 2025-11-19
Оценка	4.4	4.5
Ранг	#114	#111
Надежность	Н/Д	Н/Д
Стабильность	7.2	8.7
Тестов верно
Доля успешных попыток	33.3%	24.1%
Нестабильные тесты	6	3
Всего запусков	54	54
Стоимость за результат	0.976	0.269
Общая стоимость	$0.030	$0.009
???? ?????	$0.100 / 1M	$0.200 / 1M
???? ??????	$0.150 / 1M	$0.500 / 1M
Выходные токены	24,291	1,721
Токены рассуждений	172,597	0
Время ответа (среднее)	73.64s	1.76s
Время ответа (макс.)	226.38s	5.51s
Время ответа (суммарно)	1104.60s	19.35s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.07s	235	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	2.6	10.0	0.0%	0		135.61s	6,150	31,393
Grok 4.1 Fast	5.3	3.4	33.3%	1		1.79s	567	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		3.33s	105	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113
Grok 4.1 Fast	10.0	10.0	100.0%	0		943ms	180	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475
Grok 4.1 Fast	5.9	7.2	55.6%	1		1.06s	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695
Grok 4.1 Fast	4.4	9.9	0.0%	0		1.08s	112	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517
Grok 4.1 Fast	3.0	10.0	0.0%	0		923ms	56	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844
Grok 4.1 Fast	3.2	10.0	0.0%	0		1.28s	243	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149
Grok 4.1 Fast	2.8	1.6	33.3%	1		5.51s	208	0

Быстрое сравнение

Сменить пару сравнения

Grok 4.1 FastnonevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3.5-9Bmedium Ling 2.6 1tnoneБесплатно доступноvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3 Coder NextmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsHY3 PreviewnoneБесплатно доступно Mercury 2nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-9Bmedium Nemotron 3 SupernoneБесплатно доступноvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsMiMo-V2.5none Elephant AlphamediumvsGrok 4.1 Fastnone MiniMax M2.7mediumvsGrok 4.1 Fastnone