AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs Qwen: Qwen3.6 27B

Zusammenfassung

Claude Sonnet 5 vs Qwen3.6 27B Benchmark-Vergleich: Qwen3.6 27B führt beim Durchschnittsscore mit 6.6 vs 5.7. Claude Sonnet 5 hat die niedrigeren Benchmark-Kosten mit $0.287 vs $0.336. Claude Sonnet 5 ist schneller mit 4.74s vs 59.71s, mit Erfolgsraten von 42.9% vs 60.3%.

Empfohlenes Modell: Claude Sonnet 5 - Es bietet den besten Gesamtkompromiss: wettbewerbsfähige Punktzahl (5.7), niedrigere Kosten als Qwen3.6 27B und ausgewogene Antwortzeit.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-30

Metrik	Claude Sonnet 5 Claude Sonnet 5 none Veröffentlichung: 2026-06-30	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20

Metrik	Claude Sonnet 5 Claude Sonnet 5 none Veröffentlichung: 2026-06-30	Qwen3.6 27B Qwen3.6 27B medium Veröffentlichung: 2026-04-20
Punktzahl	5.7	6.6
Rang	#117	#83
Zuverlässigkeit	10.0	10.0
Konsistenz	8.6	8.2
Korrekte Tests
Erfolgsquote pro Versuch	42.9%	60.3%
Instabile Tests	4	5
Gesamtläufe	63	63
Kosten pro Ergebnis	4.098	3.361
Gesamtkosten	$0.287	$0.336
Eingabepreis	$2.000 / 1M	$0.286 / 1M
Ausgabepreis	$10.000 / 1M	$2.400 / 1M
Gesamte Eingabe-Token	76,797	39,376
Ausgabe-Token	13,325	16,189
Denk-Token	0	122,521
Antwortzeit (Durchschnitt)	4.74s	59.71s
Antwortzeit (Maximum)	29.46s	168.22s
Antwortzeit (Gesamt)	99.46s	1254.01s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#117 Claude Sonnet 5

none

Kosten: $0.061
Zeit: 53.7s
Token: 6,172 tok

#83 Qwen3.6 27B

medium

Kosten: $0.009
Zeit: 39.6s
Token: 3,090 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	5.3	10.0	25.0%	0		3.60s	834	1,813	0
Qwen3.6 27B	8.3	10.0	75.0%	0		12.62s	453	582	4,311

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	4.6	7.9	22.2%	1		3.67s	10,590	1,864	0
Qwen3.6 27B	7.7	10.0	66.7%	0		142.99s	5,051	7,968	43,367

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	3.0	10.0	0.0%	0		29.46s	38,775	6,340	0
Qwen3.6 27B	7.0	3.7	66.7%	1		83.07s	15,104	2,088	14,689

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	10.0	10.0	100.0%	0		3.01s	10,503	309	0
Qwen3.6 27B	3.5	1.4	50.0%	2		37.30s	7,778	568	9,404

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	5.3	7.2	44.4%	1		3.28s	975	933	0
Qwen3.6 27B	2.9	7.2	11.1%	1		73.38s	662	3,510	20,352

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	4.7	3.1	33.3%	1		2.81s	708	272	0
Qwen3.6 27B	6.5	3.4	66.7%	1		39.53s	516	81	3,045

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	6.4	10.0	50.0%	0		2.58s	909	103	0
Qwen3.6 27B	10.0	10.0	100.0%	0		37.96s	699	346	6,548

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	6.0	7.4	55.6%	1		3.22s	894	778	0
Qwen3.6 27B	7.7	10.0	66.7%	0		61.14s	696	255	12,044

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	10.0	10.0	100.0%	0		6.80s	12,351	522	0
Qwen3.6 27B	10.0	10.0	100.0%	0		16.88s	8,213	390	2,954

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Claude Sonnet 5	3.0	10.0	0.0%	0		4.31s	258	391	0
Qwen3.6 27B	3.0	10.0	0.0%	0		80.99s	204	401	5,807

Schnellvergleich

Vergleichspaar wechseln

Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitelowvsQwen3.6 27Bmedium Claude Sonnet 5nonevsNorth Mini CodemediumKostenlos verfügbar Gemini 3.5 FlashminimalvsQwen3.6 27Bmedium GPT-5.5nonevsQwen3.6 27Bmedium Gemini 3 Flash PreviewnonevsQwen3.6 27Bmedium Seed-2.0-LitenonevsQwen3.6 27Bmedium Gemini 3.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Claude Sonnet 5nonevsGemini 3.1 Flash Liteminimal Gemini 3.1 Flash LiteminimalvsQwen3.6 27Bmedium