AI BENCHY Compare

IBM: Granite 4.1 8B vs Mistral: Mistral Small 4

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-29

Metrik	Granite 4.1 8B Granite 4.1 8B none Rilis: 2026-05-01	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16

Metrik	Granite 4.1 8B Granite 4.1 8B none Rilis: 2026-05-01	Mistral Small 4 Mistral Small 4 none Rilis: 2026-03-16
Skor	4.1	5.0
Peringkat	#158	#140
Keandalan	10.0	10.0
Konsistensi	10.0	9.5
Tes benar
Tingkat lulus per percobaan	10.0%	28.3%
Tes tidak stabil	0	1
Total Run	60	60
Biaya per hasil	0.122	0.131
Total Biaya	$0.003	$0.007
Harga input	$0.050 / 1M	$0.150 / 1M
Harga output	$0.100 / 1M	$0.600 / 1M
Token output	2,743	2,192
Token penalaran	0	0
Waktu respons (rata-rata)	719ms	629ms
Waktu respons (maks)	2.17s	1.72s
Waktu respons (total)	14.37s	12.59s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	5.2	10.0	0.0%	0		706ms	357	0
Mistral Small 4	4.0	9.5	0.0%	0		1.03s	610	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.2	10.0	0.0%	0		608ms	432	0
Mistral Small 4	3.1	9.9	0.0%	0		399ms	111	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0

Pengetahuan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		306ms	12	0
Mistral Small 4	3.0	10.0	0.0%	0		397ms	17	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Granite 4.1 8BnonevsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3 Coder Nextmedium Granite 4.1 8BnonevsGLM 4.7 Flashmedium MiniMax M2.7mediumvsMistral Small 4none Mistral Small 4nonevsElephant Alphamedium MiniMax M2.5mediumTersedia gratisvsMistral Small 4none Mistral Small 4nonevsGLM 4.7 Flashmedium Granite 4.1 8BnonevsQwen3 Coder Nextmedium Mistral Small 4nonevsQwen3.5-9Bmedium CobuddymediumvsMistral Small 4none Mistral Small 4nonevsOwl Alphamedium Mistral Small 4nonevsgpt-oss-120bmediumTersedia gratis