AI BENCHY Compare

IBM: Granite 4.1 8B vs Owl Alpha

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-05-01

Metrik	Granite 4.1 8B Granite 4.1 8B none Rilis: 2026-05-01	Owl Alpha Owl Alpha medium Rilis: 2026-04-30

Metrik	Granite 4.1 8B Granite 4.1 8B none Rilis: 2026-05-01	Owl Alpha Owl Alpha medium Rilis: 2026-04-30
Skor	4.3	5.8
Peringkat	#135	#92
Keandalan	10.0	10.0
Konsistensi	10.0	9.5
Tes benar
Tingkat lulus per percobaan	11.1%	40.7%
Tes tidak stabil	0	1
Total Run	54	54
Biaya per hasil	0.110	0.000
Total Biaya	$0.003	$0.000
Harga input	$0.050 / 1M	$0.000 / 1M
Harga output	$0.100 / 1M	$0.000 / 1M
Token output	2,712	1,596
Token penalaran	0	0
Waktu respons (rata-rata)	767ms	11.04s
Waktu respons (maks)	2.17s	58.63s
Waktu respons (total)	13.81s	198.65s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	4.9	10.0	25.0%	0		844ms	903	0
Owl Alpha	4.8	10.0	25.0%	0		3.97s	87	0

Pemrograman	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	6.9	10.0	0.0%	0		1.07s	339	0
Owl Alpha	10.0	10.0	100.0%	0		7.35s	402	0

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		1.88s	396	0
Owl Alpha	3.0	10.0	0.0%	0		10.01s	315	0

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		575ms	195	0
Owl Alpha	10.0	10.0	100.0%	0		21.64s	246	0

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.0	10.0	0.0%	0		357ms	24	0
Owl Alpha	5.3	10.0	33.3%	0		8.58s	28	0

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	4.0	10.0	0.0%	0		499ms	115	0
Owl Alpha	4.3	10.0	0.0%	0		58.63s	98	0

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.6	9.9	0.0%	0		344ms	66	0
Owl Alpha	6.3	10.0	50.0%	0		9.59s	57	0

Pemecahan teka-teki	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	3.7	10.0	0.0%	0		635ms	431	0
Owl Alpha	3.4	7.2	11.1%	1		3.44s	135	0

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
Granite 4.1 8B	10.0	10.0	100.0%	0		2.17s	243	0
Owl Alpha	10.0	10.0	100.0%	0		8.26s	228	0

Perbandingan Cepat

Ganti Pasangan Perbandingan

Kimi K2.6nonevsOwl Alphamedium GPT-5.4nonevsOwl Alphamedium Owl AlphamediumvsQwen3.5-122B-A10Bnone Owl AlphamediumvsQwen3.5 Plus 2026-04-20none Owl AlphamediumvsMiMo-V2.5-Pronone Owl AlphamediumvsQwen3.6 Flashnone Owl AlphamediumvsGLM 5.1none Granite 4.1 8BnonevsQwen3.5-9Bmedium Owl AlphamediumvsMiMo-V2-Pronone DeepSeek V3.2nonevsOwl Alphamedium Owl AlphamediumvsQwen3.5-27Bnone Owl AlphamediumvsQwen3.6 27Bnone