AI BENCHY Compare

Mistral: Mistral Small 4 vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-17

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Mistral Small 4 Mistral Small 4 none Релиз: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Ранг	#61	#70
Оценка	5.3	4.5
Стабильность	9.5	7.0
Стоимость за результат	0.108	0.787
Общая стоимость	$0.006	$0.024
Тестов верно
Доля успешных попыток	33.3%	35.3%
Нестабильные тесты	1	6
Всего запусков	51	51
Выходные токены	1,624	18,141
Токены рассуждений	0	141,204
Время ответа (среднее)	629ms	69.21s
Время ответа (макс.)	1.72s	226.38s
Время ответа (суммарно)	10.70s	968.99s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Быстрое сравнение

Сменить пару сравнения

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3.5-9Bmedium Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumБесплатно доступноvsMistral Small 4none Nemotron 3 Super 120b A12bnoneБесплатно доступноvsQwen3.5-9Bmedium Mistral Small 4nonevsgpt-oss-120bmediumБесплатно доступно Trinity Large PreviewnoneБесплатно доступноvsQwen3.5-9Bmedium