AI BENCHY Compare

Qwen: Qwen3.6 Flash vs xAI: Grok 4.20

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Qwen3.6 Flash Qwen3.6 Flash none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31

Метрика	Qwen3.6 Flash Qwen3.6 Flash none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 none Релиз: 2026-03-31
Оценка	5.5	5.4
Ранг	#116	#120
Надежность	9.7	Н/Д
Стабильность	10.0	9.5
Тестов верно
Доля успешных попыток	35.0%	35.2%
Нестабильные тесты	0	1
Всего запусков	60	54
Стоимость за результат	0.259	1.574
Общая стоимость	$0.019	$0.095
???? ?????	$0.188 / 1M	$1.250 / 1M
???? ??????	$1.125 / 1M	$2.500 / 1M
Выходные токены	4,186	1,967
Токены рассуждений	0	0
Время ответа (среднее)	1.64s	1.11s
Время ответа (макс.)	4.60s	6.04s
Время ответа (суммарно)	32.88s	20.02s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	3.1	10.0	0.0%	0		1.63s	1,554	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	267	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	6.6	10.0	50.0%	0		2.34s	883	0
Grok 4.20	3.4	9.3	0.0%	0		1.22s	312	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	3.0	10.0	0.0%	0		4.22s	315	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	282	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.13s	243	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	207	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	5.3	10.0	33.3%	0		1.11s	15	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	325	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	10.0	10.0	100.0%	0		947ms	132	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	83	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	6.3	10.0	50.0%	0		1.10s	66	0
Grok 4.20	6.3	10.0	50.0%	0		455ms	60	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	3.5	10.0	0.0%	0		1.20s	697	0
Grok 4.20	5.3	7.2	44.4%	1		487ms	242	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	10.0	10.0	100.0%	0		2.49s	272	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	189	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Flash	3.0	10.0	0.0%	0		649ms	9	0
Grok 4.20	-	-	-	-	-	-	-	-

Быстрое сравнение

Сменить пару сравнения

Mistral Small 4mediumvsGrok 4.20none MiniMax M2.5mediumБесплатно доступноvsGrok 4.20none Elephant AlphamediumvsGrok 4.20none gpt-oss-120bmediumБесплатно доступноvsQwen3.6 Flashnone MiniMax M2.5mediumБесплатно доступноvsQwen3.6 Flashnone Mistral Small 4mediumvsQwen3.6 Flashnone Elephant AlphamediumvsQwen3.6 Flashnone gpt-oss-120bmediumБесплатно доступноvsGrok 4.20none CobuddymediumБесплатно доступноvsQwen3.6 Flashnone Owl AlphamediumvsQwen3.6 Flashnone CobuddymediumБесплатно доступноvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none