AI BENCHY Compare

Mistral: Mistral Small 4 vs xAI: Grok 4.20

Zusammenfassung

Mistral Small 4 vs Grok 4.20 Benchmark-Vergleich: Mistral Small 4 führt beim Durchschnittsscore mit 5.1 vs 4.4. Mistral Small 4 hat die niedrigeren Benchmark-Kosten mit $0.007 vs $0.057. Mistral Small 4 ist schneller mit 630ms vs 1.11s, mit Erfolgsraten von 27.0% vs 28.6%.

Empfohlenes Modell: Mistral Small 4 - Es hat hier die beste Punktzahl (5.1) und kostet etwa 8.2x weniger als Grok 4.20.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-02

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31

Metrik	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16	Grok 4.20 Grok 4.20 none Veröffentlichung: 2026-03-31
Punktzahl	5.1	4.4
Rang	#134	#160
Zuverlässigkeit	10.0	k. A.
Konsistenz	9.5	8.5
Korrekte Tests
Erfolgsquote pro Versuch	27.0%	28.6%
Instabile Tests	1	0
Gesamtläufe	63	54
Kosten pro Ergebnis	0.139	1.570
Gesamtkosten	$0.007	$0.057
Eingabepreis	$0.150 / 1M	$1.250 / 1M
Ausgabepreis	$0.600 / 1M	$2.500 / 1M
Gesamte Eingabe-Token	37,309	41,313
Ausgabe-Token	2,201	1,923
Denk-Token	0	0
Antwortzeit (Durchschnitt)	630ms	1.11s
Antwortzeit (Maximum)	1.72s	6.04s
Antwortzeit (Gesamt)	13.22s	19.96s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#134 Mistral Small 4

none

Kosten: $0.002
Zeit: 10.4s
Token: 2,370 tok

#160 xAI: Grok 4.20

none

Kosten: $0.004
Zeit: 6.5s
Token: 1,367 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	3.4	7.9	16.7%	1		395ms	708	182	0
Grok 4.20	4.8	10.0	25.0%	0		501ms	1,986	267	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	3.7	9.7	0.0%	0		901ms	7,636	619	0
Grok 4.20	1.1	3.1	0.0%	0		1.22s	1,074	312	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	11,640	496	0
Grok 4.20	3.0	10.0	0.0%	0		6.04s	17,673	282	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		822ms	7,914	261	0
Grok 4.20	10.0	10.0	100.0%	0		522ms	7,749	207	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	5.3	10.0	33.3%	0		367ms	798	28	0
Grok 4.20	3.0	10.0	0.0%	0		687ms	1,746	325	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	4.0	10.0	0.0%	0		729ms	519	205	0
Grok 4.20	4.8	10.0	0.0%	0		659ms	819	83	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	6.5	10.0	50.0%	0		380ms	729	69	0
Grok 4.20	6.3	10.0	50.0%	0		445ms	1,350	60	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	3.1	9.9	0.0%	0		399ms	735	111	0
Grok 4.20	5.3	10.0	33.3%	0		473ms	1,671	198	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	6,420	213	0
Grok 4.20	10.0	10.0	100.0%	0		4.63s	7,245	189	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
Mistral Small 4	3.0	10.0	0.0%	0		397ms	210	17	0
Grok 4.20	0.0	0.0	0.0%	0		0ms	0	0	0

Schnellvergleich

Vergleichspaar wechseln

MiniMax M2.7mediumvsMistral Small 4none Grok 4.20nonevsGLM 4.7 Flashmedium CobuddymediumvsMistral Small 4none Qwen3 Coder NextmediumvsGrok 4.20none MiniMax M2.5mediumvsGrok 4.20none MiniMax M2.5mediumvsMistral Small 4none Mistral Small 4nonevsQwen3 Coder Nextmedium CobuddymediumvsGrok 4.20none Qwen3.5-9BmediumvsGrok 4.20none North Mini CodemediumKostenlos verfügbarvsMistral Small 4none Mistral Small 4mediumvsGrok 4.20none MiniMax M2.7mediumvsGrok 4.20none