Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Trinity Large Preview vs OpenAI: GPT-5.4

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Trinity Large Preview none Lansare: 2026-01-27 Disponibil gratuit	OpenAI: GPT-5.4 none Lansare: 2026-03-05
Rang	#45	#44
Scor mediu	4.2	4.5
Consistență	9.6	8.9
Cost per rezultat	0.000	1.562
Cost total	$0.000	$0.094
Teste corecte
Rată de trecere pe încercare	33.3%	41.7%
Teste instabile	1	2
Rulări totale	48 (16 x 3)	48 (16 x 3)
Tokenuri de ieșire	1,837	1,819
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	3.15s	1.48s
Timp de răspuns (maxim)	8.91s	2.89s
Timp de răspuns (total)	50.46s	23.64s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		3.59s	587	0
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	0.0%	0		8.91s	294	0
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	9.9	10.0	100.0%	0		3.26s	186	0
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		877ms	25	0
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.0	9.9	0.0%	0		2.86s	124	0
OpenAI: GPT-5.4	3.0	9.9	0.0%	0		1.78s	184	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	3.5	6.7	16.7%	1		1.09s	63	0
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	4.0	10.0	33.3%	0		3.30s	291	0
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Trinity Large Preview	10.0	10.0	100.0%	0		6.67s	267	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumvsGPT-5.4none Trinity Large PreviewnoneDisponibil gratuitvsMiniMax M2.5medium Trinity Large PreviewnoneDisponibil gratuitvsQwen3 Coder Nextmedium Mercury 2mediumvsGPT-5.4none Trinity Large PreviewnoneDisponibil gratuitvsgpt-oss-120bmediumDisponibil gratuit GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium Trinity Large PreviewnoneDisponibil gratuitvsMercury 2medium Trinity Large PreviewnoneDisponibil gratuitvsGLM 4.7 Flashmedium Trinity Large PreviewnoneDisponibil gratuitvsQwen3.5-35B-A3Bmedium Trinity Large PreviewnoneDisponibil gratuitvsGPT-5 Nanomedium GPT-5.4nonevsGLM 4.7 Flashmedium