AI BENCHY Compare

OpenAI: gpt-oss-120b vs Qwen: Qwen3.5-9B

Rezumat

Comparație benchmark gpt-oss-120b vs Qwen3.5-9B (medium): gpt-oss-120b conduce la scorul mediu cu 4.0 vs 3.8. gpt-oss-120b are costul de benchmark mai mic, $0.010 vs $0.036. gpt-oss-120b este mai rapid cu 21.61s vs 82.24s, cu rate de reușită de 34.9% vs 27.0%.

Model recomandat: gpt-oss-120b - Are cel mai bun scor aici (4.0) și costă de aproximativ 3.7x mai puțin decât Qwen3.5-9B (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-09

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	Qwen3.5-9B Qwen3.5-9B medium Lansare: 2026-03-02

Metrică	gpt-oss-120b gpt-oss-120b none Lansare: 2025-08-05 Disponibil gratuit	Qwen3.5-9B Qwen3.5-9B medium Lansare: 2026-03-02
Scor	4.0	3.8
Rang	#183	#184
Fiabilitate	10.0	6.7
Consistență	8.2	8.0
Teste corecte
Rată de trecere pe încercare	34.9%	27.0%
Teste instabile	2	5
Rulări totale	57	63
Cost per rezultat	0.168	1.187
Cost total	$0.010	$0.036
Preț de intrare	$0.036 / 1M	$0.100 / 1M
Preț de ieșire	$0.180 / 1M	$0.150 / 1M
Total tokenuri de intrare	9,081	17,070
Tokenuri de ieșire	51,664	29,045
Tokenuri de raționament	0	209,516
Timp de răspuns (mediu)	21.61s	82.24s
Timp de răspuns (maxim)	113.71s	226.38s
Timp de răspuns (total)	345.79s	1315.88s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#183 gpt-oss-120b

none

Nu s-a generat încă niciun rezultat de prezentare pentru acest model.

Cost: $0.000
Timp: -
Tokenuri: 0 tok

#184 Qwen3.5-9B

medium

Cost: $0.001
Timp: 35.9s
Tokenuri: 3,030 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		32.84s	1,336	8,676	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	369	2,621	12,411

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	1.5	4.0	22.2%	1		9.57s	901	3,232	0
Qwen3.5-9B	2.9	10.0	0.0%	0		100.88s	2,396	7,890	41,129

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	2,421	598	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	4,722	1,383	32,113

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	1,294	29,483	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	295	11,549	48,475

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	4.8	10.0	0.0%	0		10.79s	584	615	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	180	0	30,695

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	9.8	10.0	100.0%	0		5.06s	1,043	1,940	0
Qwen3.5-9B	6.5	10.0	50.0%	0		5.75s	381	491	1,824

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	6.0	7.2	55.6%	1		8.21s	1,188	3,982	0
Qwen3.5-9B	3.0	10.0	0.0%	0		32.27s	376	1,593	12,026

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	8,283	444	1,149

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
gpt-oss-120b	3.0	10.0	0.0%	0		47.29s	314	3,138	0
Qwen3.5-9B	3.0	10.0	0.0%	0		177.02s	68	3,074	29,694

Comparație rapidă

Schimbă perechea de comparație

Granite 4.1 8BnonevsQwen3.5-9Bmedium gpt-oss-120bnoneDisponibil gratuitvsGLM 4.7 Flashmedium Qwen3.5-9BmediumvsGrok 4.20none gpt-oss-120bnoneDisponibil gratuitvsQwen3 Coder Nextmedium MiniMax M2.5mediumvsgpt-oss-120bnoneDisponibil gratuit Mercury 2nonevsQwen3.5-9Bmedium Ling-2.6-1TnonevsQwen3.5-9Bmedium Cobuddymediumvsgpt-oss-120bnoneDisponibil gratuit GPT-5.4 NanononevsQwen3.5-9Bmedium Ring-2.6-1TnonevsQwen3.5-9Bmedium Ling-2.6-flashnonevsQwen3.5-9Bmedium Nemotron 3 SupernoneDisponibil gratuitvsQwen3.5-9Bmedium