Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs MiniMax: MiniMax M2.5

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Trinity Large Preview none Lansare: 2026-01-27 Disponibil gratuit	MiniMax: MiniMax M2.5 medium Lansare: 2026-02-12
Rang	#45	#43
Scor mediu	4.2	4.7
Consistență	9.6	5.6
Cost per rezultat	0.000	4.981
Cost total	$0.000	$0.250
Teste corecte
Rată de trecere pe încercare	33.3%	60.4%
Teste instabile	1	9
Rulări totale	48 (16 x 3)	48 (16 x 3)
Tokenuri de ieșire	1,837	107,044
Tokenuri de raționament	0	206,190
Timp de răspuns (mediu)	3.15s	43.03s
Timp de răspuns (maxim)	8.91s	237.27s
Timp de răspuns (total)	50.46s	387.25s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
MiniMax: MiniMax M2.5	9.3	7.9	88.9%	1		32.42s	286	45,112

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
MiniMax: MiniMax M2.5	10.0	2.1	66.7%	1		60.39s	740	9,713

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
MiniMax: MiniMax M2.5	10.0	1.7	66.7%	2		7.48s	266	3,835

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
MiniMax: MiniMax M2.5	10.0	4.4	22.2%	2		237.27s	105,047	133,487

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
MiniMax: MiniMax M2.5	3.0	2.5	33.3%	1		6.63s	25	1,686

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
MiniMax: MiniMax M2.5	8.0	6.8	83.3%	1		4.64s	252	1,873

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
MiniMax: MiniMax M2.5	4.0	7.2	44.4%	1		11.54s	159	9,547

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
MiniMax: MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumvsGPT-5.4none MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone Gemini 2.5 FlashnonevsMiniMax M2.5medium MiniMax M2.5mediumvsQwen3.5-Flashnone MiniMax M2.5mediumvsKimi K2.5none MiniMax M2.5mediumvsGPT-4o-mininone MiniMax M2.5mediumvsQwen3 Coder Nextnone Trinity Large PreviewnoneDisponibil gratuitvsQwen3 Coder Nextmedium DeepSeek V3.2nonevsMiniMax M2.5medium MiniMax M2.5mediumvsGLM 4.7 Flashnone