AI BENCHY Compare

Mistral: Mistral Small 4 vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-01

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Оценка	5.2	4.4
Ранг	#115	#132
Надежность	Н/Д	Н/Д
Стабильность	9.5	7.2
Тестов верно
Доля успешных попыток	31.5%	33.3%
Нестабильные тесты	1	6
Всего запусков	54	54
Стоимость за результат	0.118	0.976
Общая стоимость	$0.006	$0.030
???? ?????	$0.150 / 1M	$0.100 / 1M
???? ??????	$0.600 / 1M	$0.150 / 1M
Выходные токены	2,207	24,291
Токены рассуждений	0	172,597
Время ответа (среднее)	665ms	73.64s
Время ответа (макс.)	1.72s	226.38s
Время ответа (суммарно)	11.97s	1104.60s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	4.5	9.0	0.0%	0		1.28s	583	0
Qwen3.5-9B	2.6	10.0	0.0%	0		135.61s	6,150	31,393

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Быстрое сравнение

Сменить пару сравнения

Nemotron 3 Nano Omni 30b A3b ReasoningnoneБесплатно доступноvsQwen3.5-9Bmedium Mistral Small 4nonevsNemotron 3 Nano Omni 30b A3b ReasoningmediumБесплатно доступно Mistral Small 4nonevsElephant Alphamedium MiniMax M2.7mediumvsMistral Small 4none Ling 2.6 1tnoneБесплатно доступноvsQwen3.5-9Bmedium Granite 4.1 8BnonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 NanononevsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3 Coder Nextmedium Qwen3.5-9BmediumvsHY3 PreviewnoneБесплатно доступно Mercury 2nonevsQwen3.5-9Bmedium