AI BENCHY Compare

Qwen: Qwen3.6 27B vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-10

Метрика	Qwen3.6 27B Qwen3.6 27B none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31

Метрика	Qwen3.6 27B Qwen3.6 27B none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31
Оценка	5.8	5.4
Ранг	#96	#115
Надежность	10.0	Н/Д
Стабильность	7.3	9.5
Тестов верно
Доля успешных попыток	52.6%	35.2%
Нестабильные тесты	6	1
Всего запусков	57	54
Стоимость за результат	0.434	1.574
Общая стоимость	$0.031	$0.095
???? ?????	$0.320 / 1M	$1.250 / 1M
???? ??????	$3.200 / 1M	$2.500 / 1M
Выходные токены	3,786	1,967
Токены рассуждений	0	0
Время ответа (среднее)	4.00s	1.11s
Время ответа (макс.)	12.08s	6.04s
Время ответа (суммарно)	76.04s	20.02s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	3.8	3.7	41.7%	3		2.83s	490	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	10.0	10.0	100.0%	0		10.18s	505	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	3.0	10.0	0.0%	0		9.95s	1,401	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	7.3	5.8	83.3%	1		2.06s	248	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	7.7	10.0	66.7%	0		3.03s	24	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	5.2	9.9	0.0%	0		1.07s	72	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	6.2	5.8	66.7%	1		1.92s	49	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	5.3	7.2	44.4%	1		5.24s	647	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	9.5	10.0	100.0%	0		6.74s	339	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 27B	3.0	10.0	0.0%	0		4.03s	11	0
Grok 4.20	-	-	-	-	-	-	-	-

Быстрое сравнение

Сменить пару сравнения

CobuddymediumБесплатно доступноvsQwen3.6 27Bnone Elephant AlphamediumvsGrok 4.20none gpt-oss-120bmediumБесплатно доступноvsQwen3.6 27Bnone Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumБесплатно доступноvsGrok 4.20none Owl AlphamediumvsQwen3.6 27Bnone Nemotron 3 SupermediumБесплатно доступноvsQwen3.6 27Bnone MiniMax M2.5mediumБесплатно доступноvsQwen3.6 27Bnone MiniMax M2.7mediumvsGrok 4.20none Mistral Small 4mediumvsQwen3.6 27Bnone gpt-oss-120bmediumБесплатно доступноvsGrok 4.20none Elephant AlphamediumvsQwen3.6 27Bnone