AI BENCHY Compare

OpenAI: gpt-oss-120b vs Z.ai: GLM 4.7 Flash

Rezumat

Comparație benchmark gpt-oss-120b vs GLM 4.7 Flash (medium): GLM 4.7 Flash (medium) conduce la scorul mediu cu 4.3 vs 4.0. gpt-oss-120b are costul de benchmark mai mic, $0.010 vs $0.054. gpt-oss-120b este mai rapid cu 21.61s vs 35.10s, cu rate de reușită de 34.9% vs 33.3%.

Model recomandat: gpt-oss-120b - Scorul rămâne aproape de cel mai bun scor de aici (4.0 vs 4.3) și costă de aproximativ 5.6x mai puțin decât GLM 4.7 Flash (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-09

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	GLM 4.7 Flash GLM 4.7 Flash medium Lansare: 2026-01-19

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	GLM 4.7 Flash GLM 4.7 Flash medium Lansare: 2026-01-19
Scor	4.0	4.3
Rang	#183	#176
Fiabilitate	10.0	6.7
Consistență	8.2	6.8
Teste corecte
Rată de trecere pe încercare	34.9%	33.3%
Teste instabile	2	8
Rulări totale	57	63
Cost per rezultat	0.168	1.337
Cost total	$0.010	$0.054
Preț de intrare	$0.036 / 1M	$0.060 / 1M
Preț de ieșire	$0.180 / 1M	$0.400 / 1M
Total tokenuri de intrare	9,081	37,206
Tokenuri de ieșire	51,664	43,754
Tokenuri de raționament	0	89,079
Timp de răspuns (mediu)	21.61s	35.10s
Timp de răspuns (maxim)	113.71s	174.55s
Timp de răspuns (total)	345.79s	456.24s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#183 gpt-oss-120b

none

Nu s-a generat încă niciun rezultat de prezentare pentru acest model.

Cost: $0.000
Timp: -
Tokenuri: 0 tok

#176 GLM 4.7 Flash

medium

SVG invalid

Cost: $0.000
Timp: 186.2s
Tokenuri: 12,112 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
GLM 4.7 Flash	4.7	5.9	41.7%	2		14.95s	555	1,122	6,110

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0
GLM 4.7 Flash	3.2	7.4	11.1%	1		55.33s	3,106	4,981	22,387

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
GLM 4.7 Flash	2.8	2.1	33.3%	1		65.57s	17,185	2,585	20,648

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
GLM 4.7 Flash	6.3	10.0	50.0%	0		1.51s	7,107	584	2,755

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
GLM 4.7 Flash	3.5	4.4	33.3%	2		174.55s	643	33,000	25,394

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
GLM 4.7 Flash	3.6	9.7	0.0%	0		18.14s	318	18	2,138

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
GLM 4.7 Flash	6.2	5.8	66.7%	1		2.97s	636	388	2,181

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
GLM 4.7 Flash	2.9	7.2	11.1%	1		12.93s	521	781	5,255

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
GLM 4.7 Flash	10.0	10.0	100.0%	0		15.95s	6,949	224	1,014

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
GLM 4.7 Flash	3.0	10.0	0.0%	0		11.13s	186	71	1,197

Comparație rapidă

Schimbă perechea de comparație