Vergelijken Grafieken Methodologie

Taal:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs MoonshotAI: Kimi K2.5

Vergelijken:

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-03-06

Metriek	Trinity Large Preview none Releasedatum: 2026-01-27 Gratis beschikbaar	MoonshotAI: Kimi K2.5 medium Releasedatum: 2026-01-27
Rang	#45	#28
Gem. score	4.2	6.4
Consistentie	9.6	7.5
Kosten per resultaat	0.000	2.171
Totale kosten	$0.000	$0.196
Correcte tests
Slaagpercentage per poging	33.3%	72.9%
Instabiele tests	1	5
Totaal runs	48	48
Uitvoer-tokens	1,837	38,453
Redeneer-tokens	0	72,496
Responstijd (gem.)	3.15s	69.83s
Responstijd (max)	8.91s	137.29s
Responstijd (totaal)	50.46s	628.45s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Gem. score vs Responstijd (gem.)

Categorie-uitsplitsing

Anti-AI-trucs	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
MoonshotAI: Kimi K2.5	7.0	7.2	88.9%	1		85.28s	335	6,255

Gecombineerd	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713

Gegevensparsering en extractie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
MoonshotAI: Kimi K2.5	9.9	10.0	100.0%	0		49.78s	563	7,940

Domeinspecifiek	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
MoonshotAI: Kimi K2.5	10.0	4.4	33.3%	2		137.29s	20,753	30,564

Algemene intelligentie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
MoonshotAI: Kimi K2.5	6.0	3.4	66.7%	1		69.73s	3,815	4,262

Instructies opvolgen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547

Puzzle Solving	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
MoonshotAI: Kimi K2.5	4.0	7.3	44.4%	1		45.40s	6,671	12,403

Toolaanroepen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
MoonshotAI: Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812

Snelle vergelijking

Vergelijkingspaar wisselen

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Trinity Large PreviewnoneGratis beschikbaarvsMiniMax M2.5medium Gemini 3.1 Flash Lite PreviewnonevsKimi K2.5medium Trinity Large PreviewnoneGratis beschikbaarvsQwen3 Coder Nextmedium Gemini 3 Flash PreviewnonevsKimi K2.5medium Trinity Large PreviewnoneGratis beschikbaarvsgpt-oss-120bmediumGratis beschikbaar Kimi K2.5mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsKimi K2.5medium DeepSeek V3.2nonevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.2 Chatnone