AI BENCHY Compare

Mistral: Mistral Small 4 vs Qwen: Qwen3.5-Flash

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-05-28

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	Qwen3.5-Flash Qwen3.5-Flash none Релиз: 2026-02-24

Метрика	Mistral Small 4 Mistral Small 4 medium Релиз: 2026-03-16	Qwen3.5-Flash Qwen3.5-Flash none Релиз: 2026-02-24
Оценка	5.4	5.9
Ранг	#123	#100
Надежность	10.0	10.0
Стабильность	7.1	9.7
Тестов верно
Доля успешных попыток	45.0%	41.7%
Нестабильные тесты	7	1
Всего запусков	60	60
Стоимость за результат	1.112	0.073
Общая стоимость	$0.056	$0.004
Цена входа	$0.150 / 1M	$0.065 / 1M
Цена выхода	$0.600 / 1M	$0.260 / 1M
Выходные токены	21,871	4,270
Токены рассуждений	68,349	0
Время ответа (среднее)	8.35s	3.74s
Время ответа (макс.)	59.15s	27.18s
Время ответа (суммарно)	167.08s	74.71s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.6	3.8	66.7%	3		2.67s	4,055	4,778
Qwen3.5-Flash	3.5	8.3	8.3%	1		1.32s	690	0

Программирование	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.1	6.8	33.3%	1		44.82s	9,322	38,386
Qwen3.5-Flash	6.8	10.0	50.0%	0		993ms	513	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		25.25s	2,612	10,700
Qwen3.5-Flash	3.0	10.0	0.0%	0		6.22s	1,794	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.9	83.3%	1		1.23s	335	723
Qwen3.5-Flash	10.0	10.0	100.0%	0		1.57s	243	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	5.3	7.2	44.4%	1		6.11s	2,621	6,904
Qwen3.5-Flash	7.7	10.0	66.7%	0		905ms	15	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	4.8	10.0	0.0%	0		2.05s	821	828
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	7.3	5.8	83.3%	1		1.38s	540	1,031
Qwen3.5-Flash	6.3	10.0	50.0%	0		8.81s	63	0

Решение головоломок	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.4	9.7	0.0%	0		2.17s	1,226	2,632
Qwen3.5-Flash	3.1	10.0	0.0%	0		10.89s	579	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	10.0	10.0	100.0%	0		3.50s	321	810
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Эрудиция	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Mistral Small 4	3.0	10.0	0.0%	0		5.92s	18	1,557
Qwen3.5-Flash	3.0	10.0	0.0%	0		588ms	9	0

Быстрое сравнение

Сменить пару сравнения

gpt-oss-120bmediumБесплатно доступноvsQwen3.5-Flashnone Nemotron 3 SupermediumБесплатно доступноvsQwen3.5-Flashnone Mistral Small 4mediumvsGrok 4.20none Mistral Small 4mediumvsgpt-oss-120bnoneБесплатно доступно Mistral Small 4mediumvsQwen3.5-122B-A10Bnone Owl AlphamediumvsQwen3.5-Flashnone Mistral Small 4mediumvsGLM 5 Turbonone Mistral Small 4mediumvsKimi K2.5none Ling-2.6-flashnonevsMistral Small 4medium Mistral Small 4mediumvsQwen3.6 Flashnone Mistral Small 4mediumvsElephant Alphanone Mistral Small 4mediumvsKimi K2.6noneБесплатно доступно