AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5-9B

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-12

Метрика	Kimi K2.5 Kimi K2.5 none Релиз: 2026-01-27	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02

Метрика	Kimi K2.5 Kimi K2.5 none Релиз: 2026-01-27	Qwen3.5-9B Qwen3.5-9B medium Релиз: 2026-03-02
Ранг	#54	#66
Средний балл	4.1	2.6
Стабильность	8.6	7.4
Стоимость за результат	0.295	0.779
Общая стоимость	$0.015	$0.024
Тестов верно
Доля успешных попыток	39.6%	35.4%
Нестабильные тесты	3	5
Всего запусков	48	48
Выходные токены	2,000	17,930
Токены рассуждений	0	139,706
Время ответа (среднее)	11.91s	71.44s
Время ответа (макс.)	42.13s	226.38s
Время ответа (суммарно)	107.16s	928.77s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Общее число выходных токенов

Средний балл vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	2.7	7.9	11.1%	1		11.38s	363	0
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	2.1	33.3%	1		19.16s	748	0
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	5.4	5.8	83.3%	1		42.13s	187	0
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	4.0	10.0	33.3%	0		4.38s	29	0
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		4.00s	76	0
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	5.5	10.0	50.0%	0		2.67s	60	0
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	0.0%	0		4.73s	317	0
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		13.99s	220	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

Быстрое сравнение

Сменить пару сравнения

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Kimi K2.5nonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsKimi K2.5none Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneБесплатно доступноvsQwen3.5-9Bmedium Kimi K2.5nonevsGrok 4.20 Multi-Agent Betamedium Kimi K2.5nonevsGLM 4.7 Flashmedium Kimi K2.5nonevsgpt-oss-120bmediumБесплатно доступно Mercury 2mediumvsKimi K2.5none Qwen3.5-9BmediumvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3.5-9Bmedium