AI BENCHY Compare

OpenAI: GPT-5.3-Codex vs Qwen: Qwen3.7 Plus

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-03

Metrică	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03

Metrică	GPT-5.3-Codex GPT-5.3-Codex medium Lansare: 2026-02-05	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03
Scor	8.3	8.4
Rang	#17	#16
Fiabilitate	10.0	9.9
Consistență	8.4	9.2
Teste corecte
Rată de trecere pe încercare	81.7%	80.0%
Teste instabile	4	2
Rulări totale	60	60
Cost per rezultat	4.887	1.324
Cost total	$0.685	$0.199
Preț de intrare	$1.750 / 1M	$0.400 / 1M
Preț de ieșire	$14.000 / 1M	$1.600 / 1M
Total tokenuri de intrare	31,680	38,104
Tokenuri de ieșire	2,336	2,107
Tokenuri de raționament	42,565	112,479
Timp de răspuns (mediu)	15.95s	36.84s
Timp de răspuns (maxim)	100.93s	178.04s
Timp de răspuns (total)	319.08s	736.86s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	606	240	1,722
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		18.45s	4,683	514	7,266
Qwen3.7 Plus	6.5	5.9	66.7%	1		122.40s	3,637	396	30,301

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	11,019	364	2,731
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	7,140	234	728
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	813	64	25,308
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	477	187	331
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	660	93	693
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.05s	642	356	1,593
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	5,445	254	492
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	195	30	1,701
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

Comparație rapidă

Schimbă perechea de comparație

Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.5 FlashnonevsGPT-5.3-Codexmedium Gemini 3.5 FlashnonevsQwen3.7 Plusmedium Gemini 3.5 FlashminimalvsGPT-5.3-Codexmedium Gemini 3.5 FlashminimalvsQwen3.7 Plusmedium GPT-5.3-CodexmediumvsQwen3.7 Maxnone GPT-5.2 ChatnonevsQwen3.7 Plusmedium GPT-5.5lowvsQwen3.7 Plusmedium Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3 Flash PreviewnonevsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsGPT-5.3-Codexmedium