Навигация
AI BENCHY
Your ad here

AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.4 Mini

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-17

Метрика Kimi K2.5 Kimi K2.5 medium Релиз: 2026-01-27 GPT-5.4 Mini GPT-5.4 Mini none Релиз: 2026-03-17
Ранг #33 #66
Оценка 7.2 4.8
Стабильность 7.2 8.6
Стоимость за результат 2.232 0.737
Общая стоимость $0.201 $0.030
Тестов верно
Доля успешных попыток 72.6% 31.4%
Нестабильные тесты 6 3
Всего запусков 51 51
Выходные токены 40,907 2,085
Токены рассуждений 75,121 0
Время ответа (среднее) 64.59s 1.17s
Время ответа (макс.) 137.29s 2.52s
Время ответа (суммарно) 645.93s 19.82s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Оценка vs Время ответа (среднее)

Общее число выходных токенов

Оценка vs Общее число выходных токенов

Разбивка по категориям

Анти-ИИ уловки Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 7.3 5.8 83.3% 2 51.38s 2,789 8,880
GPT-5.4 Mini 3.1 8.1 8.3% 1 929ms 654 0
Комбинированный Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 10.0 10.0 100.0% 0 71.37s 703 3,713
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.52s 298 0
Парсинг и извлечение данных Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 10.0 10.0 100.0% 0 49.78s 563 7,940
GPT-5.4 Mini 10.0 10.0 100.0% 0 1.30s 222 0
Предметно-ориентированное Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 3.5 4.4 33.3% 2 137.29s 20,753 30,564
GPT-5.4 Mini 3.5 4.4 33.3% 2 937ms 88 0
Общий интеллект Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 6.5 3.4 66.7% 1 69.73s 3,815 4,262
GPT-5.4 Mini 4.8 10.0 0.0% 0 1.82s 174 0
Следование инструкциям Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 10.0 10.0 100.0% 0 92.47s 5,371 6,547
GPT-5.4 Mini 6.3 10.0 50.0% 0 728ms 101 0
Puzzle Solving Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 5.3 7.3 44.4% 1 45.40s 6,671 12,403
GPT-5.4 Mini 5.4 10.0 33.3% 0 860ms 293 0
Вызов инструментов Оценка Стабильность Доля успешных попыток Нестабильные тесты Тестов верно Время ответа (среднее) Выходные токены Токены рассуждений
Kimi K2.5 10.0 10.0 100.0% 0 31.74s 242 812
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.32s 255 0

Быстрое сравнение

Сменить пару сравнения