AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5 Plus 2026-02-15

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-12

Metrică	GPT-5.3 Chat GPT-5.3 Chat none Lansare: 2026-03-03	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Lansare: 2026-02-15

Metrică	GPT-5.3 Chat GPT-5.3 Chat none Lansare: 2026-03-03	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 medium Lansare: 2026-02-15
Rang	#20	#5
Scor mediu	7.3	8.3
Consistență	8.5	9.5
Cost per rezultat	3.163	1.264
Cost total	$0.317	$0.165
Teste corecte
Rată de trecere pe încercare	70.8%	85.4%
Teste instabile	3	1
Rulări totale	48	48
Tokenuri de ieșire	19,272	1,735
Tokenuri de raționament	0	77,212
Timp de răspuns (mediu)	5.96s	34.45s
Timp de răspuns (maxim)	18.33s	79.86s
Timp de răspuns (total)	95.30s	310.09s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor mediu vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		10.37s	186	5,926

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		46.85s	421	7,906

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Qwen3.5 Plus 2026-02-15	9.9	10.0	100.0%	0		46.91s	270	14,916

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Qwen3.5 Plus 2026-02-15	4.0	10.0	33.3%	0		17.50s	35	16,680

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
Qwen3.5 Plus 2026-02-15	10.0	1.6	66.7%	1		79.86s	73	8,675

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		31.93s	101	7,704

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		34.57s	340	14,496

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		7.54s	309	909

Comparație rapidă

Schimbă perechea de comparație

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponibil gratuit Gemini 3 Flash PreviewlowvsQwen3.5 Plus 2026-02-15medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGrok 4.20 Betamedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsQwen3.5-Flashmedium Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone