AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Qwen: Qwen3.5-122B-A10B

Zusammenfassung

Claude Sonnet 4.6 vs Qwen3.5-122B-A10B Benchmark-Vergleich: Qwen3.5-122B-A10B führt beim Durchschnittsscore mit 7.7 vs 7.3. Claude Sonnet 4.6 hat die niedrigeren Benchmark-Kosten mit $0.316 vs $0.588. Claude Sonnet 4.6 ist schneller mit 5.04s vs 42.49s, mit Erfolgsraten von 55.6% vs 73.0%.

Empfohlenes Modell: Claude Sonnet 4.6 - Die Punktzahl bleibt nah an der besten hier (7.3 vs 7.7) und es kostet etwa 1.9x weniger als Qwen3.5-122B-A10B.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 none Veröffentlichung: 2026-02-17	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Veröffentlichung: 2026-02-24

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 none Veröffentlichung: 2026-02-17	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Veröffentlichung: 2026-02-24
Punktzahl	7.3	7.7
Rang	#55	#36
Zuverlässigkeit	10.0	10.0
Konsistenz	9.7	8.8
Korrekte Tests
Erfolgsquote pro Versuch	55.6%	73.0%
Instabile Tests	1	3
Gesamtläufe	63	63
Kosten pro Ergebnis	2.870	5.235
Gesamtkosten	$0.316	$0.588
Eingabepreis	$3.000 / 1M	$0.260 / 1M
Ausgabepreis	$15.000 / 1M	$2.080 / 1M
Gesamte Eingabe-Token	57,886	41,832
Ausgabe-Token	9,465	26,187
Denk-Token	0	251,028
Antwortzeit (Durchschnitt)	5.04s	42.49s
Antwortzeit (Maximum)	23.84s	168.16s
Antwortzeit (Gesamt)	70.60s	892.30s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#55 Claude Sonnet 4.6

none

Kosten: $0.038
Zeit: 27.3s
Token: 2,598 tok

#36 Qwen3.5-122B-A10B

medium

Kosten: $0.019
Zeit: 48.7s
Token: 6,034 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	26,024	3,766	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066

Schnellvergleich

Vergleichspaar wechseln