AI BENCHY Compare

IBM: Granite 4.1 8B vs Mistral: Mistral Small 4

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-29

Metrik	Granite 4.1 8B Granite 4.1 8B none Veröffentlichung: 2026-05-01	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16

Metrik	Granite 4.1 8B Granite 4.1 8B none Veröffentlichung: 2026-05-01	Mistral Small 4 Mistral Small 4 none Veröffentlichung: 2026-03-16
Punktzahl	4.1	5.0
Rang	#158	#140
Zuverlässigkeit	10.0	10.0
Konsistenz	10.0	9.5
Korrekte Tests
Erfolgsquote pro Versuch	10.0%	28.3%
Instabile Tests	0	1
Gesamtläufe	60	60
Kosten pro Ergebnis	0.122	0.131
Gesamtkosten	$0.003	$0.007
Eingabepreis	$0.050 / 1M	$0.150 / 1M
Ausgabepreis	$0.100 / 1M	$0.600 / 1M
Ausgabe-Token	2,743	2,192
Denk-Token	0	0
Antwortzeit (Durchschnitt)	719ms	629ms
Antwortzeit (Maximum)	2.17s	1.72s
Antwortzeit (Gesamt)	14.37s	12.59s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	5.2	10.0	0.0%	0		706ms	357	0
Mistral Small 4	4.0	9.5	0.0%	0		1.03s	610	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	432	0
Mistral Small 4	3.1	9.9	0.0%	0		399ms	111	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	12	0
Mistral Small 4	3.0	10.0	0.0%	0		397ms	17	0

Schnellvergleich

Vergleichspaar wechseln

Granite 4.1 8BnonevsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3 Coder Nextmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsMistral Small 4none Mistral Small 4nonevsElephant Alphamedium MiniMax M2.5mediumKostenlos verfügbarvsMistral Small 4none Mistral Small 4nonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsQwen3 Coder Nextmedium Mistral Small 4nonevsQwen3.5-9Bmedium CobuddymediumvsMistral Small 4none Mistral Small 4nonevsOwl Alphamedium Mistral Small 4nonevsgpt-oss-120bmediumKostenlos verfügbar