AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Qwen: Qwen3.7 Max

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-21

Metrică	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lansare: 2026-02-17	Qwen3.7 Max Qwen3.7 Max none Lansare: 2026-05-22

Metrică	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Lansare: 2026-02-17	Qwen3.7 Max Qwen3.7 Max none Lansare: 2026-05-22
Scor	7.6	7.9
Rang	#43	#27
Fiabilitate	8.3	10.0
Consistență	9.5	10.0
Teste corecte
Rată de trecere pe încercare	66.7%	70.0%
Teste instabile	1	0
Rulări totale	60	60
Cost per rezultat	14.103	0.719
Cost total	$1.834	$0.101
Preț de intrare	$3.000 / 1M	$2.500 / 1M
Preț de ieșire	$15.000 / 1M	$7.500 / 1M
Tokenuri de ieșire	74,051	1,988
Tokenuri de raționament	38,982	0
Timp de răspuns (mediu)	37.16s	1.29s
Timp de răspuns (maxim)	289.23s	3.92s
Timp de răspuns (total)	445.94s	25.81s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Qwen3.7 Max	6.5	10.0	50.0%	0		1.08s	242	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	7.0	9.7	50.0%	0		162.50s	35,440	12,709
Qwen3.7 Max	6.8	10.0	50.0%	0		1.32s	576	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Qwen3.7 Max	3.0	10.0	0.0%	0		2.17s	171	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Qwen3.7 Max	10.0	10.0	100.0%	0		1.35s	243	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Qwen3.7 Max	7.7	10.0	66.7%	0		975ms	15	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Qwen3.7 Max	10.0	10.0	100.0%	0		1.04s	120	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Qwen3.7 Max	10.0	10.0	100.0%	0		943ms	72	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Qwen3.7 Max	10.0	10.0	100.0%	0		1.13s	314	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Qwen3.7 Max	10.0	10.0	100.0%	0		3.92s	222	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
Qwen3.7 Max	3.0	10.0	0.0%	0		856ms	13	0

Comparație rapidă

Schimbă perechea de comparație

Gemini 3.5 FlashminimalvsQwen3.7 Maxnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Qwen3.7 MaxnonevsGLM 5 Turbomedium Qwen3.7 MaxnonevsMiMo-V2.5medium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Gemma 4 31BmediumDisponibil gratuitvsQwen3.7 Maxnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone GPT-5.4mediumvsQwen3.7 Maxnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 2.5 FlashmediumvsQwen3.7 Maxnone Qwen3.7 MaxnonevsGrok 4.3medium