AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31

Метрика	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none Релиз: 2026-02-24	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31
Оценка	5.4	5.4
Ранг	#124	#120
Надежность	10.0	Н/Д
Стабильность	9.2	9.5
Тестов верно
Доля успешных попыток	35.0%	35.2%
Нестабильные тесты	2	1
Всего запусков	60	54
Стоимость за результат	0.380	1.574
Общая стоимость	$0.023	$0.095
???? ?????	$0.260 / 1M	$1.250 / 1M
???? ??????	$2.080 / 1M	$2.500 / 1M
Выходные токены	3,375	1,967
Токены рассуждений	0	0
Время ответа (среднее)	3.38s	1.11s
Время ответа (макс.)	46.00s	6.04s
Время ответа (суммарно)	67.64s	20.02s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	312	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	4.0	5.5	33.3%	1		2.14s	684	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	1,137	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	243	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	15	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		585ms	70	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.7	7.7	11.1%	1		982ms	575	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	9	0
Grok 4.20	-	-	-	-	-	-	-	-

Быстрое сравнение

Сменить пару сравнения

Mistral Small 4mediumvsGrok 4.20none Elephant AlphamediumvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumБесплатно доступноvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none Mistral Small 4mediumvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumБесплатно доступноvsQwen3.5-122B-A10Bnone gpt-oss-120bmediumБесплатно доступноvsGrok 4.20none gpt-oss-120bmediumБесплатно доступноvsQwen3.5-122B-A10Bnone MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone CobuddymediumБесплатно доступноvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none CobuddymediumБесплатно доступноvsQwen3.5-122B-A10Bnone