AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20 Beta

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-03-17

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Veröffentlichung: 2026-03-12

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Grok 4.20 Beta Grok 4.20 Beta none Veröffentlichung: 2026-03-12
Rang	#61	#58
Punktzahl	5.3	5.3
Konsistenz	9.5	9.1
Kosten pro Ergebnis	0.108	2.240
Gesamtkosten	$0.006	$0.090
Korrekte Tests
Erfolgsquote pro Versuch	33.3%	31.4%
Instabile Tests	1	2
Gesamtläufe	51	51
Ausgabe-Token	1,624	1,517
Denk-Token	0	0
Antwortzeit (Durchschnitt)	629ms	1.19s
Antwortzeit (Maximum)	1.72s	6.48s
Antwortzeit (Gesamt)	10.70s	20.22s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Schnellvergleich

Vergleichspaar wechseln

Mistral Small 4mediumvsGrok 4.20 Betanone Mistral Small 4nonevsQwen3 Coder Nextmedium Qwen3 Coder NextmediumvsGrok 4.20 Betanone MiniMax M2.5mediumKostenlos verfügbarvsGrok 4.20 Betanone Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumKostenlos verfügbarvsMistral Small 4none Grok 4.20 BetanonevsGLM 4.7 Flashmedium gpt-oss-120bmediumKostenlos verfügbarvsGrok 4.20 Betanone Mistral Small 4nonevsgpt-oss-120bmediumKostenlos verfügbar Mistral Small 4nonevsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone GPT-5 NanomediumvsGrok 4.20 Betanone