AI BENCHY Compare

OpenAI: gpt-oss-120b vs Elephant Alpha

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-29

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	Elephant Alpha Elephant Alpha medium Lansare: 2026-04-14

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	Elephant Alpha Elephant Alpha medium Lansare: 2026-04-14
Scor	5.4	5.4
Rang	#124	#127
Fiabilitate	10.0	N/D
Consistență	9.1	9.6
Teste corecte
Rată de trecere pe încercare	38.6%	33.3%
Teste instabile	2	1
Rulări totale	57	60
Cost per rezultat	0.168	0.000
Cost total	$0.011	$0.000
Preț de intrare	$0.039 / 1M	$0.000 / 1M
Preț de ieșire	$0.180 / 1M	$0.000 / 1M
Tokenuri de ieșire	51,664	2,596
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	21.61s	1.27s
Timp de răspuns (maxim)	113.71s	3.70s
Timp de răspuns (total)	345.79s	22.82s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	8,676	0
Elephant Alpha	6.6	10.0	50.0%	0		1.19s	815	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0
Elephant Alpha	4.0	6.7	16.7%	1		1.30s	365	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Elephant Alpha	3.0	10.0	0.0%	0		3.70s	562	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0
Elephant Alpha	6.5	10.0	50.0%	0		979ms	246	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0
Elephant Alpha	3.0	10.0	0.0%	0		925ms	24	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	615	0
Elephant Alpha	4.3	10.0	0.0%	0		920ms	105	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,940	0
Elephant Alpha	9.8	10.0	100.0%	0		987ms	82	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	3,982	0
Elephant Alpha	5.3	10.0	33.3%	0		868ms	166	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0
Elephant Alpha	3.0	10.0	0.0%	0		2.83s	231	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	3,138	0
Elephant Alpha	0.0	0.0	0.0%	0		0ms	0	0

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumDisponibil gratuitvsgpt-oss-120bnoneDisponibil gratuit Elephant AlphamediumvsQwen3.5-122B-A10Bnone Mistral Small 4mediumvsgpt-oss-120bnoneDisponibil gratuit Elephant AlphamediumvsGrok 4.20none MiniMax M2.7mediumvsgpt-oss-120bnoneDisponibil gratuit Elephant AlphamediumvsGLM 5 Turbonone Kimi K2.5nonevsElephant Alphamedium Ling-2.6-flashnonevsElephant Alphamedium Elephant AlphamediumvsQwen3.6 Flashnone Elephant AlphamediumvsMiMo-V2.5-Pronone GPT-5.4nonevsElephant Alphamedium Kimi K2.6noneDisponibil gratuitvsElephant Alphamedium