Anthropic: Claude Opus 4.8 vs Qwen: Qwen3.5-27B

Qwen3.5-27B (medium) conduce la scorul mediu cu 7.4 vs 7.3. Claude Opus 4.8 are costul de benchmark mai mic, $1.166 vs $1.627. Claude Opus 4.8 este mai rapid cu 4.91s vs 111.94s, cu rate de reușită de 63.6% vs 72.7%.

Model recomandatClaude Opus 4.8Scorul rămâne aproape de cel mai bun scor de aici (7.3 vs 7.4) și răspunde de aproximativ 22.8x mai rapid decât Qwen3.5-27B (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-18

Metrică	Claude Opus 4.8 Claude Opus 4.8 none Lansare: 2026-05-28	Qwen3.5-27B Qwen3.5-27B medium Lansare: 2026-02-24

Metrică	Claude Opus 4.8 Claude Opus 4.8 none Lansare: 2026-05-28	Qwen3.5-27B Qwen3.5-27B medium Lansare: 2026-02-24
Scor	7.3	7.4
Rang	#65	#58
Fiabilitate	10.0	10.0
Consistență	9.2	8.2
Teste corecte
Rată de trecere pe încercare	63.6%	72.7%
Teste instabile	2	5
Rulări totale	66	66
Cost per rezultat	8.969	8.324
Cost total	$1.166	$1.627
Preț de intrare	$5.000 / 1M	$0.260 / 1M
Preț de ieșire	$25.000 / 1M	$2.600 / 1M
Total tokenuri de intrare	149,206	111,635
Tokenuri de ieșire	16,797	15,999
Tokenuri de raționament	0	598,430
Timp de răspuns (mediu)	4.91s	111.94s
Timp de răspuns (maxim)	35.03s	1026.43s
Timp de răspuns (total)	108.03s	2462.67s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#65 Claude Opus 4.8

none

Cost: $0.053
Timp: 22.0s
Tokenuri: 2,253 tok

#58 Qwen3.5-27B

medium

Cost: $0.008
Timp: 62.0s
Tokenuri: 3,099 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Categorie:

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Qwen3.5-27B	8.7	7.9	91.7%	1		19.75s	672	569	31,505

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Qwen3.5-27B	6.2	7.1	55.6%	1		160.69s	7,895	6,381	89,388

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Qwen3.5-27B	7.3	5.8	83.3%	1		595.19s	84,417	7,948	279,132

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Qwen3.5-27B	10.0	10.0	100.0%	0		30.26s	7,782	270	16,150

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Qwen3.5-27B	5.3	10.0	33.3%	0		79.53s	553	43	52,368

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Qwen3.5-27B	6.1	3.1	66.7%	1		101.41s	524	70	23,147

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Qwen3.5-27B	10.0	10.0	100.0%	0		19.66s	699	97	11,638

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Qwen3.5-27B	8.2	7.7	77.8%	1		59.60s	696	242	70,096

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Qwen3.5-27B	10.0	10.0	100.0%	0		7.45s	8,193	348	1,323

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Qwen3.5-27B	3.0	10.0	0.0%	0		85.11s	204	31	23,683

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high GPT-5.6 TerralowvsQwen3.5-27Bmedium Claude Opus 4.8nonevsGemini 3.1 Flash Lite Previewmedium GPT-5.3 ChatnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewlowvsQwen3.5-27Bmedium KAT-Coder-Pro V2.5lowvsQwen3.5-27Bmedium Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Claude Sonnet 4.6nonevsQwen3.5-27Bmedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low