Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs Inception: Mercury 2

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Trinity Large Preview none Lansare: 2026-01-27 Disponibil gratuit	Inception: Mercury 2 medium Lansare: 2026-02-24
Rang	#45	#36
Scor mediu	4.2	5.3
Consistență	9.6	8.4
Cost per rezultat	0.000	0.631
Cost total	$0.000	$0.045
Teste corecte
Rată de trecere pe încercare	33.3%	54.2%
Teste instabile	1	3
Rulări totale	48	48
Tokenuri de ieșire	1,837	3,708
Tokenuri de raționament	0	45,921
Timp de răspuns (mediu)	3.15s	2.36s
Timp de răspuns (maxim)	8.91s	14.63s
Timp de răspuns (total)	50.46s	35.39s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
Inception: Mercury 2	7.3	9.8	66.7%	0		1.30s	2,531	2,410

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
Inception: Mercury 2	10.0	10.0	100.0%	0		3.28s	268	4,887

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
Inception: Mercury 2	5.5	5.9	83.3%	1		1.11s	183	1,656

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
Inception: Mercury 2	10.0	7.2	11.1%	1		6.48s	41	30,754

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
Inception: Mercury 2	4.0	10.0	0.0%	0		821ms	137	542

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
Inception: Mercury 2	10.0	10.0	100.0%	0		1.07s	14	958

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
Inception: Mercury 2	1.7	7.5	22.2%	1		934ms	354	2,758

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
Inception: Mercury 2	10.0	10.0	100.0%	0		1.89s	180	1,956

Comparație rapidă

Schimbă perechea de comparație

Mercury 2mediumvsQwen3.5-Flashnone Gemini 2.5 FlashnonevsMercury 2medium DeepSeek V3.2nonevsMercury 2medium Mercury 2mediumvsQwen3.5-122B-A10Bnone Mercury 2mediumvsQwen3.5-27Bnone Trinity Large PreviewnoneDisponibil gratuitvsMiniMax M2.5medium Mercury 2mediumvsQwen3.5-35B-A3Bnone Mercury 2mediumvsGLM 5none Trinity Large PreviewnoneDisponibil gratuitvsQwen3 Coder Nextmedium Mercury 2mediumvsGPT-5.4none Trinity Large PreviewnoneDisponibil gratuitvsgpt-oss-120bmediumDisponibil gratuit Mercury 2mediumvsQwen3.5 Plus 2026-02-15none