AI BENCHY Compare

Qwen: Qwen3.6 35B A3B vs xAI: Grok 4.3

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-22

Метрика	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Релиз: 2026-04-20	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01

Метрика	Qwen3.6 35B A3B Qwen3.6 35B A3B medium Релиз: 2026-04-20	Grok 4.3 Grok 4.3 medium Релиз: 2026-05-01
Оценка	7.8	7.8
Ранг	#30	#31
Надежность	9.4	10.0
Стабильность	9.1	8.4
Тестов верно
Доля успешных попыток	70.4%	75.0%
Нестабильные тесты	2	4
Всего запусков	60	60
Стоимость за результат	1.050	4.562
Общая стоимость	$0.126	$0.593
???? ?????	$0.150 / 1M	$1.250 / 1M
???? ??????	$1.000 / 1M	$2.500 / 1M
Выходные токены	18,325	1,485
Токены рассуждений	115,750	214,928
Время ответа (среднее)	17.26s	49.23s
Время ответа (макс.)	86.11s	216.69s
Время ответа (суммарно)	310.77s	984.54s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		6.02s	1,154	12,385
Grok 4.3	10.0	10.0	100.0%	0		8.83s	88	8,207

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	6.6	10.0	50.0%	0		59.35s	6,601	22,535
Grok 4.3	7.4	6.5	66.7%	1		55.26s	532	24,554

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.3	10.0	10.0	100.0%	0		63.99s	234	15,301

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		12.99s	2,591	9,968
Grok 4.3	10.0	10.0	100.0%	0		18.97s	180	9,546

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	5.3	7.2	44.4%	1		22.50s	6,193	39,116
Grok 4.3	5.3	7.2	44.4%	1		181.74s	14	111,300

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	4.4	9.9	0.0%	0		8.66s	129	4,569
Grok 4.3	5.4	2.5	66.7%	1		24.70s	70	5,020

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	10.0	10.0	100.0%	0		7.50s	219	7,404
Grok 4.3	9.8	10.0	100.0%	0		18.58s	57	8,713

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	7.9	7.5	77.8%	1		5.98s	676	9,447
Grok 4.3	5.9	7.2	55.6%	1		22.53s	128	14,686

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	0.0	0.0	0.0%	0		0ms	0	0
Grok 4.3	10.0	10.0	100.0%	0		17.66s	168	4,615

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.6 35B A3B	3.0	10.0	0.0%	0		32.90s	762	10,326
Grok 4.3	3.0	10.0	0.0%	0		44.47s	14	12,986

Быстрое сравнение

Сменить пару сравнения

Qwen3.7 MaxnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsGrok 4.3medium Gemini 3 Flash PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium Gemini 3.5 FlashminimalvsQwen3.6 35B A3Bmedium GPT-5.2 ChatnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 35B A3Bmedium Gemini 3.5 FlashminimalvsGrok 4.3medium GPT-5.2 ChatnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsGrok 4.3medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash LitelowvsGrok 4.3medium