AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.20

Сводка

Сравнение benchmark Qwen3.6 Max Preview vs Grok 4.20: Grok 4.20 лидирует по среднему баллу: 7.1 vs 6.9. Qwen3.6 Max Preview имеет более низкую стоимость benchmark: $0.075 vs $0.609. Qwen3.6 Max Preview быстрее: 3.30s vs 27.68s, с долей успешных попыток 58.7% vs 63.5%.

Рекомендуемая модель: Qwen3.6 Max Preview - Его балл близок к лучшему здесь (6.9 против 7.1), при этом он примерно в 8.2 раза дешевле, чем Grok 4.20.

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	Grok 4.20 Grok 4.20 medium Релиз: 2026-03-31
Оценка	6.9	7.1
Ранг	#75	#66
Надежность	10.0	10.0
Стабильность	9.2	8.8
Тестов верно
Доля успешных попыток	58.7%	63.5%
Нестабильные тесты	2	3
Всего запусков	63	63
Стоимость за результат	0.824	8.309
Общая стоимость	$0.075	$0.609
Цена входа	$1.040 / 1M	$1.250 / 1M
Цена выхода	$6.240 / 1M	$2.500 / 1M
Общее число входных токенов	42,509	44,433
Выходные токены	4,779	1,819
Токены рассуждений	0	219,524
Время ответа (среднее)	3.30s	27.68s
Время ответа (макс.)	20.51s	199.66s
Время ответа (суммарно)	69.40s	581.26s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#75 Qwen3.6 Max Preview

none

Cost: $0.025
Time: 83.9s
Tokens: 4,066 tok

#66 xAI: Grok 4.20

medium

Cost: $0.041
Time: 110.3s
Tokens: 16,336 tok

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	696	513	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	2,010	287	8,312

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	3.8	7.3	22.2%	1		3.12s	7,913	456	0
Grok 4.20	6.3	6.6	55.6%	1		109.93s	8,307	268	103,150

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	14,949	2,842	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	12,909	232	9,556

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	7,794	243	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	7,761	180	5,333

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	789	18	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	1,764	375	49,339

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	522	76	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	825	65	6,440

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.40s	711	69	0
Grok 4.20	9.8	10.0	100.0%	0		4.26s	1,362	57	6,419

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.65s	714	321	0
Grok 4.20	7.7	10.0	66.7%	0		6.22s	1,689	149	7,913

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	8,211	222	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	7,275	197	6,620

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Входные токены	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		1.97s	210	19	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	531	9	16,442

Быстрое сравнение

Сменить пару сравнения

Ring-2.6-1TmediumvsQwen3.6 Max Previewnone Seed-2.0-MinimediumvsQwen3.6 Max Previewnone Kimi K2.5mediumvsQwen3.6 Max Previewnone GPT-5.3 ChatnonevsGrok 4.20medium Gemini 3.1 Flash LitelowvsGrok 4.20medium Claude Opus 4.8nonevsGrok 4.20medium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20medium Step 3.7 FlashhighvsGrok 4.20medium DeepSeek V3.2mediumvsQwen3.6 Max Previewnone Step 3.7 FlashlowvsGrok 4.20medium Qwen3.6 Max PreviewnonevsStep 3.7 Flashhigh GPT-5.4 NanomediumvsQwen3.6 Max Previewnone