Сравнить Графики Методология

Язык:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs MoonshotAI: Kimi K2.5

Сравнить:

Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-03-06

Метрика	Trinity Large Preview none Релиз: 2026-01-27 Бесплатно доступно	MoonshotAI: Kimi K2.5 none Релиз: 2026-01-27
Ранг	#45	#46
Средний балл	4.2	4.1
Стабильность	9.6	8.6
Стоимость за результат	0.000	0.295
Общая стоимость	$0.000	$0.015
Тестов верно
Доля успешных попыток	33.3%	39.6%
Нестабильные тесты	1	3
Всего запусков	48 (16 x 3)	48 (16 x 3)
Выходные токены	1,837	2,000
Токены рассуждений	0	0
Время ответа (среднее)	3.15s	11.91s
Время ответа (макс.)	8.91s	42.13s
Время ответа (суммарно)	50.46s	107.16s

Лучшие модели по оценке

Оценка vs общая стоимость

Время ответа (среднее)

Средний балл vs Время ответа (среднее)

Разбивка по категориям

Анти-ИИ уловки	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
MoonshotAI: Kimi K2.5	2.7	7.9	11.1%	1		11.38s	363	0

Комбинированный	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
MoonshotAI: Kimi K2.5	10.0	2.1	33.3%	1		19.16s	748	0

Парсинг и извлечение данных	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
MoonshotAI: Kimi K2.5	5.4	5.8	83.3%	1		42.13s	187	0

Предметно-ориентированное	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
MoonshotAI: Kimi K2.5	4.0	10.0	33.3%	0		4.38s	29	0

Общий интеллект	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		4.00s	76	0

Следование инструкциям	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
MoonshotAI: Kimi K2.5	5.5	10.0	50.0%	0		2.67s	60	0

Puzzle Solving	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
MoonshotAI: Kimi K2.5	10.0	10.0	0.0%	0		4.73s	317	0

Вызов инструментов	Оценка	Стабильность	Доля успешных попыток	Нестабильные тесты	Тестов верно	Время ответа (среднее)	Выходные токены	Токены рассуждений
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		13.99s	220	0

Быстрое сравнение

Сменить пару сравнения

Trinity Large PreviewnoneБесплатно доступноvsMiniMax M2.5medium Kimi K2.5nonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsKimi K2.5none Trinity Large PreviewnoneБесплатно доступноvsQwen3 Coder Nextmedium Trinity Large PreviewnoneБесплатно доступноvsgpt-oss-120bmediumБесплатно доступно Kimi K2.5nonevsGLM 4.7 Flashmedium Kimi K2.5nonevsgpt-oss-120bmediumБесплатно доступно Trinity Large PreviewnoneБесплатно доступноvsMercury 2medium Trinity Large PreviewnoneБесплатно доступноvsGLM 4.7 Flashmedium Mercury 2mediumvsKimi K2.5none Trinity Large PreviewnoneБесплатно доступноvsQwen3.5-35B-A3Bmedium Trinity Large PreviewnoneБесплатно доступноvsGPT-5 Nanomedium