AI BENCHY Compare

Qwen: Qwen3.5-Flash vs xAI: Grok Build 0.1

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24	Grok Build 0.1 Grok Build 0.1 medium Релиз: 2026-05-21

Метрика	Qwen3.5-Flash Qwen3.5-Flash medium Релиз: 2026-02-24	Grok Build 0.1 Grok Build 0.1 medium Релиз: 2026-05-21
Оценка	7.6	7.7
Ранг	#48	#43
Надежность	10.0	10.0
Стабильность	8.0	9.9
Тестов верно
Доля успешных попыток	75.0%	65.0%
Нестабильные тесты	5	0
Всего запусков	60	60
Стоимость за результат	0.821	5.606
Общая стоимость	$0.074	$0.729
Цена входа	$0.065 / 1M	$1.000 / 1M
Цена выхода	$0.260 / 1M	$2.000 / 1M
Выходные токены	2,074	2,258
Токены рассуждений	272,063	341,381
Время ответа (среднее)	63.04s	42.39s
Время ответа (макс.)	234.29s	252.69s
Время ответа (суммарно)	1197.71s	847.76s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	10.0	10.0	100.0%	0		59.11s	383	32,992
Grok Build 0.1	8.3	10.0	75.0%	0		7.43s	220	12,162

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	4.1	5.8	33.3%	1		54.23s	288	67,546
Grok Build 0.1	7.0	9.5	50.0%	0		62.62s	614	64,815

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270
Grok Build 0.1	10.0	10.0	100.0%	0		32.81s	231	16,917

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	7.3	5.9	83.3%	1		56.99s	235	16,237
Grok Build 0.1	10.0	10.0	100.0%	0		10.72s	180	8,876

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	5.3	7.2	44.4%	1		146.50s	58	43,615
Grok Build 0.1	5.3	10.0	33.3%	0		158.00s	492	175,294

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	6.1	3.1	66.7%	1		40.05s	99	38,486
Grok Build 0.1	4.4	9.9	0.0%	0		18.41s	76	6,345

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139
Grok Build 0.1	9.8	10.0	100.0%	0		12.36s	57	9,599

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	8.2	7.2	88.9%	1		27.61s	89	12,457
Grok Build 0.1	7.7	10.0	66.7%	0		18.26s	195	20,841

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284
Grok Build 0.1	10.0	10.0	100.0%	0		13.12s	180	4,969

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Qwen3.5-Flash	3.0	10.0	0.0%	0		48.98s	32	37,037
Grok Build 0.1	3.0	10.0	0.0%	0		53.51s	13	21,563

Быстрое сравнение

Сменить пару сравнения

Gemini 3 Flash PreviewnonevsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium DeepSeek V4 FlashhighБесплатно доступноvsQwen3.5-Flashmedium DeepSeek V4 FlashhighБесплатно доступноvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGrok Build 0.1medium Gemini 3.1 Flash LitelowvsQwen3.5-Flashmedium GPT-5.2 ChatnonevsGrok Build 0.1medium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash LitelowvsGrok Build 0.1medium