AI BENCHY Compare

Anthropic: Claude Opus 4.7 vs Qwen: Qwen3.7 Plus

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-03

Metrică	Claude Opus 4.7 Claude Opus 4.7 medium Lansare: 2026-04-16	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03

Metrică	Claude Opus 4.7 Claude Opus 4.7 medium Lansare: 2026-04-16	Qwen3.7 Plus Qwen3.7 Plus medium Lansare: 2026-06-03
Scor	8.9	8.4
Rang	#7	#16
Fiabilitate	10.0	9.9
Consistență	10.0	9.2
Teste corecte
Rată de trecere pe încercare	85.0%	80.0%
Teste instabile	0	2
Rulări totale	60	60
Cost per rezultat	3.670	1.324
Cost total	$0.624	$0.199
Preț de intrare	$5.000 / 1M	$0.400 / 1M
Preț de ieșire	$25.000 / 1M	$1.600 / 1M
Total tokenuri de intrare	61,569	38,104
Tokenuri de ieșire	10,439	2,107
Tokenuri de raționament	2,198	112,479
Timp de răspuns (mediu)	4.48s	36.84s
Timp de răspuns (maxim)	23.18s	178.04s
Timp de răspuns (total)	85.21s	736.86s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	8.3	10.0	75.0%	0		1.85s	894	348	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		8.58s	672	195	5,065

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		14.79s	6,798	6,210	1,114
Qwen3.7 Plus	6.5	5.9	66.7%	1		122.40s	3,637	396	30,301

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		21.45s	24,501	2,369	1,084
Qwen3.7 Plus	10.0	10.0	100.0%	0		65.24s	14,934	366	10,132

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.37s	10,533	324	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		21.75s	7,782	270	6,713

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	7.7	10.0	66.7%	0		1.17s	630	51	0
Qwen3.7 Plus	3.6	7.2	22.2%	1		45.35s	771	57	27,073

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.87s	723	256	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		25.48s	516	123	3,998

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		1.57s	939	114	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.13s	699	102	5,013

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		2.43s	939	370	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		16.38s	696	280	7,312

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	10.0	10.0	100.0%	0		4.17s	15,339	373	0
Qwen3.7 Plus	10.0	10.0	100.0%	0		15.02s	8,193	292	1,831

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Opus 4.7	3.0	10.0	0.0%	0		2.25s	273	24	0
Qwen3.7 Plus	3.0	10.0	0.0%	0		91.07s	204	26	15,041

Comparație rapidă

Schimbă perechea de comparație

Claude Opus 4.7mediumvsGPT-5.5low Claude Opus 4.7mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsQwen3.7 Plusmedium Gemini 3.5 FlashnonevsQwen3.7 Plusmedium Claude Opus 4.7mediumvsGemini 3.5 Flashlow Gemini 3.5 FlashminimalvsQwen3.7 Plusmedium GPT-5.2 ChatnonevsQwen3.7 Plusmedium GPT-5.5lowvsQwen3.7 Plusmedium Claude Opus 4.7mediumvsGemini 3.5 Flashhigh Gemini 3 Flash PreviewnonevsQwen3.7 Plusmedium DeepSeek V4 FlashhighvsQwen3.7 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.7 Plusmedium