AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Grok 4.1 Fast

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-19

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 none Veröffentlichung: 2026-02-17	Grok 4.1 Fast Grok 4.1 Fast medium Veröffentlichung: 2025-11-19

Metrik	Claude Sonnet 4.6 Claude Sonnet 4.6 none Veröffentlichung: 2026-02-17	Grok 4.1 Fast Grok 4.1 Fast medium Veröffentlichung: 2025-11-19
Punktzahl	7.2	6.5
Rang	#68	#84
Zuverlässigkeit	10.0	10.0
Konsistenz	9.6	7.3
Korrekte Tests
Erfolgsquote pro Versuch	61.4%	61.4%
Instabile Tests	1	6
Gesamtläufe	57	57
Kosten pro Ergebnis	2.441	0.644
Gesamtkosten	$0.269	$0.058
Eingabepreis	$3.000 / 1M	$0.000 / 1M
Ausgabepreis	$15.000 / 1M	$0.000 / 1M
Ausgabe-Token	7,864	2,025
Denk-Token	0	96,679
Antwortzeit (Durchschnitt)	4.96s	24.01s
Antwortzeit (Maximum)	23.84s	121.79s
Antwortzeit (Gesamt)	59.50s	288.18s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	1,214	0
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.67s	523	0
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	3,766	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	252	0
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	413	0
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	192	0
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	90	0
Grok 4.1 Fast	6.5	10.0	50.0%	0		5.30s	55	3,489

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.92s	536	0
Grok 4.1 Fast	5.3	7.2	44.4%	1		8.08s	187	6,086

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	447	0
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	431	0
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381

Schnellvergleich

Vergleichspaar wechseln

Claude Sonnet 4.6nonevsGPT-5.4 Minimedium Grok 4.1 FastmediumvsGLM 5none Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsMiMo-V2-Omnimedium Claude Sonnet 4.6nonevsGPT-5.2medium Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsMiMo-V2-Flashmedium Claude Sonnet 4.6nonevsRing-2.6-1Tmedium Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Claude Sonnet 4.6nonevsGPT-5.4 Nanomedium Grok 4.1 FastmediumvsMiMo-V2-Omninone