AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4 Mini

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-17

Метрика	Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini none Релиз: 2026-03-17

Метрика	Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27	GPT-5.4 Mini GPT-5.4 Mini none Релиз: 2026-03-17
Ранг	#33	#66
Оценка	7.2	4.8
Стабильность	7.2	8.6
Стоимость за результат	2.232	0.737
Общая стоимость	$0.201	$0.030
Тестов верно
Доля успешных попыток	72.6%	31.4%
Нестабильные тесты	6	3
Всего запусков	51	51
Выходные токены	40,907	2,085
Токены рассуждений	75,121	0
Время ответа (среднее)	64.59s	1.17s
Время ответа (макс.)	137.29s	2.52s
Время ответа (суммарно)	645.93s	19.82s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GPT-5.4 Mini	3.1	8.1	8.3%	1		929ms	654	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.52s	298	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GPT-5.4 Mini	10.0	10.0	100.0%	0		1.30s	222	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GPT-5.4 Mini	3.5	4.4	33.3%	2		937ms	88	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GPT-5.4 Mini	4.8	10.0	0.0%	0		1.82s	174	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GPT-5.4 Mini	6.3	10.0	50.0%	0		728ms	101	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GPT-5.4 Mini	5.4	10.0	33.3%	0		860ms	293	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GPT-5.4 Mini	3.0	10.0	0.0%	0		2.32s	255	0

Быстрое сравнение

Сменить пару сравнения

GPT-5.4 MininonevsQwen3 Coder Nextmedium Claude Sonnet 4.6nonevsKimi K2.5medium GPT-5.4 MininonevsGLM 4.7 Flashmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Kimi K2.5mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGLM 5none Kimi K2.5mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Mistral Small 4mediumvsGPT-5.4 Mininone Gemini 3 Flash PreviewnonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium