Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs MoonshotAI: Kimi K2.5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	Trinity Large Preview none Релиз: 2026-01-27 Бесплатно доступно	MoonshotAI: Kimi K2.5 medium Релиз: 2026-01-27
Ранг	#45	#28
Средний балл	4.2	6.4
Стабильность	9.6	7.5
Стоимость за результат	0.000	2.171
Общая стоимость	$0.000	$0.196
Тестов верно
Доля успешных попыток	33.3%	72.9%
Нестабильные тесты	1	5
Всего запусков	48	48
Выходные токены	1,837	38,453
Токены рассуждений	0	72,496
Время ответа (среднее)	3.15s	69.83s
Время ответа (макс.)	8.91s	137.29s
Время ответа (суммарно)	50.46s	628.45s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
MoonshotAI: Kimi K2.5	6.0	3.4	66.7%	1		69.73s	3,815	4,262

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Быстрое сравнение

Сменить пару сравнения

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Trinity Large PreviewnoneБесплатно доступноvsMiniMax M2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Trinity Large PreviewnoneБесплатно доступноvsQwen3 Coder Nextmedium Gemini 3 Flash PreviewnonevsKimi K2.5medium Trinity Large PreviewnoneБесплатно доступноvsgpt-oss-120bmediumБесплатно доступно Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.2 Chatnone