AI BENCHY Compare

Qwen: Qwen3.6 Max Preview vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Qwen3.6 Max Preview Qwen3.6 Max Preview none Релиз: 2026-04-20	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.5	8.2
Ранг	#52	#20
Надежность	10.0	10.0
Стабильность	9.1	8.6
Тестов верно
Доля успешных попыток	68.5%	81.5%
Нестабильные тесты	2	3
Всего запусков	54	54
Стоимость за результат	0.752	3.974
Общая стоимость	$0.083	$0.517
???? ?????	$1.040 / 1M	$1.250 / 1M
???? ??????	$6.240 / 1M	$2.500 / 1M
Выходные токены	4,732	1,223
Токены рассуждений	0	187,047
Время ответа (среднее)	3.38s	48.63s
Время ответа (макс.)	20.51s	216.69s
Время ответа (суммарно)	60.83s	875.27s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	5.2	7.9	41.7%	1		2.63s	513	0
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	5.0	2.0	66.7%	1		3.45s	426	0
Grok 4.3	10.0	10.0	100.0%	0		45.72s	284	9,659

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	3.0	10.0	0.0%	0		20.51s	2,842	0
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.87s	243	0
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	7.7	10.0	66.7%	0		1.22s	18	0
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	4.3	10.0	0.0%	0		1.62s	76	0
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	9.8	10.0	100.0%	0		1.45s	69	0
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		2.38s	323	0
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 Max Preview	10.0	10.0	100.0%	0		5.27s	222	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Быстрое сравнение

Сменить пару сравнения

Seed-2.0-MinimediumvsQwen3.6 Max Previewnone GPT-5.4 NanomediumvsQwen3.6 Max Previewnone GPT-5.2mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2-Flashmedium Claude Opus 4.6mediumvsQwen3.6 Max Previewnone HY3 PreviewlowБесплатно доступноvsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Qwen3.6 Max PreviewnonevsMiMo-V2-Omnimedium Kimi K2.6mediumvsQwen3.6 Max Previewnone Qwen3.6 Max PreviewnonevsMiMo-V2.5medium Qwen3.6 Max PreviewnonevsGLM 5.1medium