AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.7 Max

Rezumat

Comparație benchmark GPT-5.3-Codex vs Qwen3.7 Max: Qwen3.7 Max conduce la scorul mediu cu 9.4 vs 8.9. Qwen3.7 Max are costul de benchmark mai mic, $0.523 vs $0.740. Qwen3.7 Max este mai rapid cu 16.02s vs 16.22s, cu rate de reușită de 82.5% vs 88.9%.

Model recomandat: Qwen3.7 Max - Are cel mai puternic scor din această comparație (9.4) și cel mai bun echilibru între cost și timp de răspuns dintre toate cele 2 modele.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-02

Metrică	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Qwen3.7 Max Qwen3.7 Max medium Lansare: 2026-05-22

Metrică	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Qwen3.7 Max Qwen3.7 Max medium Lansare: 2026-05-22
Scor	8.9	9.4
Rang	#10	#3
Fiabilitate	10.0	10.0
Consistență	8.5	9.6
Teste corecte
Rată de trecere pe încercare	82.5%	88.9%
Teste instabile	4	1
Rulări totale	63	63
Cost per rezultat	4.932	5.517
Cost total	$0.740	$0.523
Preț de intrare	$1.750 / 1M	$1.250 / 1M
Preț de ieșire	$14.000 / 1M	$3.750 / 1M
Total tokenuri de intrare	34,299	42,360
Tokenuri de ieșire	2,357	2,129
Tokenuri de raționament	46,189	122,959
Timp de răspuns (mediu)	16.22s	16.02s
Timp de răspuns (maxim)	100.93s	59.98s
Timp de răspuns (total)	340.67s	336.51s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#10 GPT-5.3-Codex

medium

Cost: $0.049
Timp: 54.9s
Tokenuri: 3,580 tok

#3 Qwen3.7 Max

medium

Cost: $0.017
Timp: 68.8s
Tokenuri: 4,526 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.7 Max	10.0	10.0	100.0%	0		6.36s	672	222	8,742

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.50s	7,302	535	10,890
Qwen3.7 Max	10.0	10.0	100.0%	0		35.31s	7,893	423	34,808

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.7 Max	10.0	10.0	100.0%	0		19.60s	14,934	366	8,405

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.7 Max	10.0	10.0	100.0%	0		8.80s	7,782	270	6,254

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.7 Max	5.9	7.2	55.6%	1		24.94s	771	61	31,793

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.7 Max	10.0	10.0	100.0%	0		11.70s	516	135	4,457

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.7 Max	10.0	10.0	100.0%	0		7.46s	699	102	5,452

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.7 Max	10.0	10.0	100.0%	0		8.84s	696	259	8,908

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.7 Max	10.0	10.0	100.0%	0		6.63s	8,193	267	1,220

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.7 Max	3.0	10.0	0.0%	0		33.37s	204	24	12,920

Comparație rapidă

Schimbă perechea de comparație

GPT-5.5lowvsQwen3.7 Maxmedium Gemini 3.5 FlashlowvsQwen3.7 Maxmedium Gemini 3.5 FlashlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashhighvsQwen3.7 Maxmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium GPT-5.2 ChatnonevsQwen3.7 Maxmedium Gemini 3.5 FlashhighvsGPT-5.3-Codexmedium DeepSeek V4 FlashhighvsQwen3.7 Maxmedium Claude Opus 4.8lowvsGPT-5.3-Codexmedium GPT-5.3-CodexmediumvsStep 3.7 Flashlow DeepSeek V4 ProhighvsGPT-5.3-Codexmedium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium