Compară Grafice

Limbă:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs Qwen: Qwen3.5-27B

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-05

Metrică	OpenAI: GPT-5.4 none Lansare: 2026-03-05	Qwen: Qwen3.5-27B none Lansare: 2026-02-24
Rang	#44	#41
Scor mediu	4.6	4.9
Teste corecte
Consistență	8.9	9.0
Cost per rezultat	1.496	0.297
Cost total	$0.090	$0.015
Rată de trecere pe încercare	44.4%	40.0%
Teste instabile	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Tokenuri de ieșire	1,635	3,035
Tokenuri de raționament	0	0
Timp de răspuns (medie)	1.46s	1.70s
Timp de răspuns (maxim)	2.89s	9.39s
Timp de răspuns (total)	21.86s	25.55s

Top modele după scor

Timp de răspuns (medie)

Scor vs cost total

Scor mediu vs Timp de răspuns (medie)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
Qwen: Qwen3.5-27B	4.0	10.0	33.3%	0		796ms	264	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
Qwen: Qwen3.5-27B	10.0	1.6	33.3%	1		9.39s	1,461	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
Qwen: Qwen3.5-27B	9.9	10.0	100.0%	0		1.43s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
Qwen: Qwen3.5-27B	10.0	10.0	0.0%	0		540ms	15	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
Qwen: Qwen3.5-27B	4.5	10.0	0.0%	0		815ms	69	0

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
Qwen: Qwen3.5-27B	6.3	7.9	55.6%	1		1.37s	680	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (medie)	Tokenuri de ieșire	Tokenuri de raționament
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
Qwen: Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0

Comparație rapidă

Schimbă perechea de comparație

MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsGPT-5.4none gpt-oss-120bmediumDisponibil gratuitvsQwen3.5-27Bnone Mercury 2mediumvsQwen3.5-27Bnone GPT-5 NanomediumvsQwen3.5-27Bnone Mercury 2mediumvsGPT-5.4none GPT-5 MinimediumvsQwen3.5-27Bnone GPT-5.4nonevsQwen3.5-35B-A3Bmedium GPT-5.4nonevsQwen3 Coder Nextmedium GPT-5.4nonevsGLM 4.7 Flashmedium Claude Opus 4.6mediumvsQwen3.5-27Bnone Kimi K2.5mediumvsQwen3.5-27Bnone