AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3 Coder Next

Rezumat

Comparație benchmark GPT-5.4 vs Qwen3 Coder Next: GPT-5.4 conduce la scorul mediu cu 5.8 vs 5.1. Qwen3 Coder Next are costul de benchmark mai mic, $0.009 vs $0.122. GPT-5.4 este mai rapid cu 1.42s vs 8.62s, cu rate de reușită de 36.5% vs 27.0%.

Model recomandat: GPT-5.4 - Are cel mai bun scor aici (5.8) și răspunde de aproximativ 6.1x mai rapid decât Qwen3 Coder Next.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-02

Metrică	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05	Qwen3 Coder Next Qwen3 Coder Next none Lansare: 2026-02-03

Metrică	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05	Qwen3 Coder Next Qwen3 Coder Next none Lansare: 2026-02-03
Scor	5.8	5.1
Rang	#115	#135
Fiabilitate	10.0	10.0
Consistență	9.2	9.7
Teste corecte
Rată de trecere pe încercare	36.5%	27.0%
Teste instabile	2	1
Rulări totale	63	63
Cost per rezultat	1.740	0.165
Cost total	$0.122	$0.009
Preț de intrare	$2.500 / 1M	$0.110 / 1M
Preț de ieșire	$15.000 / 1M	$0.800 / 1M
Total tokenuri de intrare	34,212	47,507
Tokenuri de ieșire	2,417	3,584
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.42s	8.62s
Timp de răspuns (maxim)	2.95s	45.14s
Timp de răspuns (total)	29.87s	129.37s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#115 GPT-5.4

none

Cost: $0.026
Timp: 18.1s
Tokenuri: 1,792 tok

#135 Qwen3 Coder Next

none

SVG invalid

Cost: $0.058
Timp: 246.3s
Tokenuri: 64,126 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0
Qwen3 Coder Next	3.6	10.0	0.0%	0		3.31s	645	1,321	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.5	10.0	33.3%	0		1.62s	7,305	516	0
Qwen3 Coder Next	4.6	7.9	22.2%	1		2.22s	7,442	621	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		45.14s	20,469	317	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0
Qwen3 Coder Next	6.5	10.0	50.0%	0		1.32s	7,758	246	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0
Qwen3 Coder Next	5.3	10.0	33.3%	0		962ms	753	26	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		1.34s	498	152	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0
Qwen3 Coder Next	6.3	10.0	50.0%	0		7.78s	684	63	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		24.34s	678	571	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0
Qwen3 Coder Next	10.0	10.0	100.0%	0		2.47s	8,364	255	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0
Qwen3 Coder Next	3.0	10.0	0.0%	0		601ms	216	12	0

Comparație rapidă

Schimbă perechea de comparație

Mistral Small 4mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsQwen3 Coder Nextnone North Mini CodemediumDisponibil gratuitvsGPT-5.4none CobuddymediumvsQwen3 Coder Nextnone Gemini 3.1 Flash LiteminimalvsGPT-5.4none MiniMax M2.5mediumvsQwen3 Coder Nextnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumDisponibil gratuitvsGPT-5.4none Nemotron 3 SupermediumDisponibil gratuitvsGPT-5.4none MiniMax M2.7mediumvsGPT-5.4none Gemini 3.1 Flash LitelowvsGPT-5.4none Mistral Small 4mediumvsGPT-5.4none