AI BENCHY Compare

Model yang Dibandingkan

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-21

Metrik	MiniMax M2.7 MiniMax M2.7 medium Rilis: 2026-03-18	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	GLM 5 GLM 5 medium Rilis: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03

Metrik	MiniMax M2.7 MiniMax M2.7 medium Rilis: 2026-03-18	Kimi K2.5 Kimi K2.5 medium Rilis: 2026-01-27	GLM 5 GLM 5 medium Rilis: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03
Skor	5.0	7.2	8.3	8.1
Peringkat	#68	#35	#11	#14
Konsistensi	5.3	7.2	8.1	10.0
Tes benar
Tingkat lulus per percobaan	49.0%	72.6%	84.3%	70.6%
Tes tidak stabil	10	6	4	0
Total Run	51	51	51	51
Biaya per hasil	2.398	2.232	0.896	0.413
Total Biaya	$0.072	$0.201	$0.108	$0.050
Harga input	$0.300 / 1M	$0.450 / 1M	$0.720 / 1M	$0.250 / 1M
Harga output	$1.200 / 1M	$2.200 / 1M	$2.300 / 1M	$1.500 / 1M
Token output	4,517	40,907	19,833	1,737
Token penalaran	47,612	75,121	38,523	26,346
Waktu respons (rata-rata)	27.32s	64.59s	17.15s	3.70s
Waktu respons (maks)	117.04s	137.29s	28.96s	14.93s
Waktu respons (total)	437.10s	645.93s	154.32s	62.97s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	7.9	6.3	83.3%	2		40.32s	3,010	17,716
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	570	4,305

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	4.7	1.6	66.7%	1		41.03s	369	4,480
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	6.3	5.8	66.7%	1		21.95s	187	5,882
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.0	10.0	0.0%	0		19.00s	8	2,796
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.9	2.5	33.3%	1		38.70s	92	5,204
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.7	1.8	50.0%	2		12.64s	213	2,457
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.8	4.5	33.3%	2		25.62s	334	8,076
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		3.58s	141	1,896

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	4.7	1.6	66.7%	1		12.05s	304	1,001
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912

Perbandingan Cepat

Ganti Pasangan Perbandingan

MiniMax M2.7mediumvsQwen3 Coder Nextnone MiniMax M2.7mediumvsGPT-4o-mininone Claude Sonnet 4.6nonevsKimi K2.5medium Mercury 2nonevsMiniMax M2.7medium MiniMax M2.7mediumvsGPT-5.4 Mininone MiniMax M2.7mediumvsNemotron 3 SupernoneTersedia gratis MiniMax M2.7mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsMistral Small 4none Gemini 3.1 Flash Lite PreviewlowvsGLM 5medium Gemini 3 Flash PreviewnonevsGLM 5medium Trinity Large PreviewnoneTersedia gratisvsMiniMax M2.7medium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone