Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-Flash

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	OpenAI: GPT-5.4 none Lansare: 2026-03-05	Qwen: Qwen3.5-Flash medium Lansare: 2026-02-24
Scor mediu	4.6	7.0
Rang	#44	#24
Teste corecte
Consistență	8.9	7.8
Cost per rezultat	1.496	0.565
Cost total	$0.090	$0.057
Rată de trecere pe încercare	44.4%	82.2%
Teste instabile	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokenuri de ieșire	1,635	1,708
Tokenuri de raționament	0	131,466
Timp de răspuns (mediu)	1.46s	72.86s
Timp de răspuns (maxim)	2.89s	234.29s
Timp de răspuns (total)	21.86s	1092.84s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		71.35s	363	23,645

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		17.78s	483	8,270

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-Flash	5.5	5.9	83.3%	1		56.99s	235	16,237

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-Flash	4.0	7.2	44.4%	1		146.50s	58	43,615

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		63.49s	98	14,139

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-Flash	4.0	4.4	77.8%	2		56.74s	162	24,276

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		10.33s	309	1,284

Comparație rapidă

Schimbă perechea de comparație

Gemini 3 Flash PreviewnonevsQwen3.5-Flashmedium Claude Sonnet 4.6nonevsQwen3.5-Flashmedium MiniMax M2.5mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium GPT-5.3 ChatnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium Mercury 2mediumvsGPT-5.4none Gemini 3.1 Flash Lite PreviewhighvsQwen3.5-Flashmedium Gemini 3 Flash PreviewlowvsQwen3.5-Flashmedium Qwen3.5-FlashmediumvsGLM 5none GPT-5.4nonevsQwen3.5-35B-A3Bmedium