Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-Flash

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	OpenAI: GPT-5.4 none Lansare: 2026-03-05	Qwen: Qwen3.5-Flash none Lansare: 2026-02-24
Scor mediu	4.6	4.9
Rang	#44	#40
Teste corecte
Consistență	8.9	9.5
Cost per rezultat	1.496	0.088
Cost total	$0.090	$0.006
Rată de trecere pe încercare	44.4%	42.2%
Teste instabile	2	1
common.totalRuns	45 (15 x 3)	45 (15 x 3)
Tokenuri de ieșire	1,635	3,674
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.46s	3.73s
Timp de răspuns (maxim)	2.89s	13.73s
Timp de răspuns (total)	21.86s	55.90s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumvsQwen3.5-Flashnone MiniMax M2.5mediumvsGPT-5.4none gpt-oss-120bmediumDisponibil gratuitvsQwen3.5-Flashnone Mercury 2mediumvsQwen3.5-Flashnone GPT-5 NanomediumvsQwen3.5-Flashnone Mercury 2mediumvsGPT-5.4none GPT-5 MinimediumvsQwen3.5-Flashnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsQwen3.5-Flashnone Kimi K2.5mediumvsQwen3.5-Flashnone