AI BENCHY Compare

IBM: Granite 4.1 8B vs inclusionAI: Ling-2.6-flash

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-05-29

Metrik	Granite 4.1 8B Granite 4.1 8B none Veröffentlichung: 2026-05-01	Ling-2.6-flash Ling-2.6-flash none Veröffentlichung: 2026-04-21

Metrik	Granite 4.1 8B Granite 4.1 8B none Veröffentlichung: 2026-05-01	Ling-2.6-flash Ling-2.6-flash none Veröffentlichung: 2026-04-21
Punktzahl	4.1	5.3
Rang	#158	#135
Zuverlässigkeit	10.0	10.0
Konsistenz	10.0	9.2
Korrekte Tests
Erfolgsquote pro Versuch	10.0%	35.1%
Instabile Tests	0	2
Gesamtläufe	60	60
Kosten pro Ergebnis	0.122	0.005
Gesamtkosten	$0.003	$0.001
Eingabepreis	$0.050 / 1M	$0.010 / 1M
Ausgabepreis	$0.100 / 1M	$0.030 / 1M
Ausgabe-Token	2,743	2,878
Denk-Token	0	0
Antwortzeit (Durchschnitt)	719ms	9.34s
Antwortzeit (Maximum)	2.17s	35.34s
Antwortzeit (Gesamt)	14.37s	177.48s

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0
Ling-2.6-flash	6.8	8.1	58.3%	1		11.81s	573	0

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	5.2	10.0	0.0%	0		706ms	357	0
Ling-2.6-flash	10.0	10.0	100.0%	0		11.21s	381	0

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0
Ling-2.6-flash	3.0	10.0	0.0%	0		35.34s	1,069	0

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0
Ling-2.6-flash	6.5	10.0	50.0%	0		8.48s	246	0

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0
Ling-2.6-flash	3.0	10.0	0.0%	0		4.95s	24	0

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0
Ling-2.6-flash	4.0	10.0	0.0%	0		1.45s	109	0

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0
Ling-2.6-flash	9.8	10.0	100.0%	0		5.52s	81	0

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	432	0
Ling-2.6-flash	2.9	7.2	11.1%	1		6.51s	151	0

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0
Ling-2.6-flash	3.0	10.0	0.0%	0		18.80s	229	0

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Korrekte Tests	Antwortzeit (Durchschnitt)	Ausgabe-Token	Denk-Token
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	12	0
Ling-2.6-flash	3.0	10.0	0.0%	0		1.06s	15	0

Schnellvergleich

Vergleichspaar wechseln

Ling-2.6-flashnonevsMiniMax M2.7medium Ling-2.6-flashnonevsElephant Alphamedium Ling-2.6-flashnonevsMistral Small 4medium Granite 4.1 8BnonevsQwen3.5-9Bmedium Ling-2.6-flashnonevsMiniMax M2.5mediumKostenlos verfügbar Granite 4.1 8BnonevsGLM 4.7 Flashmedium CobuddymediumvsLing-2.6-flashnone Ling-2.6-flashnonevsQwen3 Coder Nextmedium Ling-2.6-flashnonevsOwl Alphamedium Granite 4.1 8BnonevsQwen3 Coder Nextmedium Ling-2.6-flashnonevsgpt-oss-120bmediumKostenlos verfügbar Ling-2.6-flashnonevsNemotron 3 SupermediumKostenlos verfügbar