Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.3 Chat vs Qwen: Qwen3.5-Flash

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	OpenAI: GPT-5.3 Chat none Lansare: 2026-03-03	Qwen: Qwen3.5-Flash medium Lansare: 2026-02-24
Rang	#19	#24
Scor mediu	7.3	6.9
Consistență	8.5	7.5
Cost per rezultat	3.163	0.720
Cost total	$0.317	$0.072
Teste corecte
Rată de trecere pe încercare	70.8%	81.3%
Teste instabile	3	5
common.totalRuns	48 (16 x 3)	48 (16 x 3)
Tokenuri de ieșire	19,272	1,807
Tokenuri de raționament	0	169,952
Timp de răspuns (mediu)	5.96s	70.81s
Timp de răspuns (maxim)	18.33s	234.29s
Timp de răspuns (total)	95.30s	1132.90s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	7.3	7.5	77.8%	1		4.72s	3,091	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		71.35s	363	23,645

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		11.96s	2,614	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	9.9	10.0	100.0%	0		2.21s	942	0
Qwen: Qwen3.5-Flash	5.5	5.9	83.3%	1		56.99s	235	16,237

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	10.0	4.4	33.3%	2		13.01s	8,264	0
Qwen: Qwen3.5-Flash	4.0	7.2	44.4%	1		146.50s	58	43,615

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	4.0	10.0	0.0%	0		1.99s	319	0
Qwen: Qwen3.5-Flash	5.0	3.1	66.7%	1		40.05s	99	38,486

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	9.0	10.0	50.0%	0		3.29s	1,455	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		2.93s	1,726	0
Qwen: Qwen3.5-Flash	4.0	4.4	77.8%	2		56.74s	162	24,276

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.3 Chat	10.0	10.0	100.0%	0		8.36s	861	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Comparație rapidă

Schimbă perechea de comparație

DeepSeek V3.2mediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone GPT-5.3 ChatnonevsGLM 5medium GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponibil gratuit Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Seed-2.0-MinimediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium