AI BENCHY Compare

Model yang Dibandingkan

Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-18

Metrik	MiniMax M2.7 MiniMax M2.7 medium Rilis: 2026-03-18	MiniMax M2.5 MiniMax M2.5 medium Rilis: 2026-02-12 Tersedia gratis	GLM 5 GLM 5 medium Rilis: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03

Metrik	MiniMax M2.7 MiniMax M2.7 medium Rilis: 2026-03-18	MiniMax M2.5 MiniMax M2.5 medium Rilis: 2026-02-12 Tersedia gratis	GLM 5 GLM 5 medium Rilis: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Rilis: 2026-03-03
Skor	5.0	5.9	8.3	8.1
Peringkat	#64	#50	#11	#14
Konsistensi	5.3	5.4	8.1	10.0
Tes benar
Tingkat lulus per percobaan	49.0%	60.8%	84.3%	70.6%
Tes tidak stabil	10	10	4	0
Total Run	51	51	51	51
Biaya per hasil	2.398	4.987	0.896	0.413
Total Biaya	$0.072	$0.250	$0.108	$0.050
Harga input	$0.300 / 1M	$0.200 / 1M	$0.720 / 1M	$0.250 / 1M
Harga output	$1.200 / 1M	$1.200 / 1M	$2.300 / 1M	$1.500 / 1M
Token output	4,517	107,044	19,833	1,737
Token penalaran	47,612	206,422	38,523	26,346
Waktu respons (rata-rata)	27.32s	39.65s	17.15s	3.70s
Waktu respons (maks)	117.04s	237.27s	28.96s	14.93s
Waktu respons (total)	437.10s	396.47s	154.32s	62.97s

Model teratas berdasarkan skor

Skor vs Total Biaya

Waktu respons (rata-rata)

Skor vs Waktu respons (rata-rata)

Total token output

Skor vs Total token output

Rincian Kategori

Trik anti-AI	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	7.9	6.3	83.3%	2		40.32s	3,010	17,716
MiniMax M2.5	7.9	6.3	83.3%	2		20.82s	286	45,344
GLM 5	10.0	10.0	100.0%	0		23.66s	480	7,056
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	570	4,305

Gabungan	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	4.7	1.6	66.7%	1		41.03s	369	4,480
MiniMax M2.5	4.5	2.1	66.7%	1		60.39s	740	9,713
GLM 5	10.0	10.0	100.0%	0		28.96s	662	3,242
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347

Parsing dan ekstraksi data	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	6.3	5.8	66.7%	1		21.95s	187	5,882
MiniMax M2.5	4.6	1.7	66.7%	2		7.48s	266	3,835
GLM 5	7.1	5.6	83.3%	1		8.90s	567	3,734
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952

Spesifik domain	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.0	10.0	0.0%	0		19.00s	8	2,796
MiniMax M2.5	2.9	4.4	22.2%	2		237.27s	105,047	133,487
GLM 5	3.5	4.4	33.3%	2		0ms	13,176	14,137
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325

Kecerdasan umum	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.9	2.5	33.3%	1		38.70s	92	5,204
MiniMax M2.5	3.8	2.5	33.3%	1		6.63s	25	1,686
GLM 5	6.1	3.1	66.7%	1		14.69s	2,020	2,248
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488

Kepatuhan instruksi	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.7	1.8	50.0%	2		12.64s	213	2,457
MiniMax M2.5	8.1	6.8	83.3%	1		4.64s	252	1,873
GLM 5	10.0	10.0	100.0%	0		7.25s	1,001	2,129
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121

Puzzle Solving	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	3.8	4.5	33.3%	2		25.62s	334	8,076
MiniMax M2.5	5.3	7.2	44.4%	1		11.54s	159	9,547
GLM 5	10.0	10.0	100.0%	0		15.64s	1,694	4,983
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		3.58s	141	1,896

Pemanggilan alat	Skor	Konsistensi	Tingkat lulus per percobaan	Tes tidak stabil	Tes benar	Waktu respons (rata-rata)	Token output	Token penalaran
MiniMax M2.7	4.7	1.6	66.7%	1		12.05s	304	1,001
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937
GLM 5	10.0	10.0	100.0%	0		15.93s	233	994
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912

Perbandingan Cepat

Ganti Pasangan Perbandingan

MiniMax M2.5mediumTersedia gratisvsQwen3.5-35B-A3Bnone MiniMax M2.7mediumvsQwen3 Coder Nextnone MiniMax M2.5mediumTersedia gratisvsHunter Alphanone Gemini 2.5 FlashnonevsMiniMax M2.5mediumTersedia gratis MiniMax M2.7mediumvsGPT-4o-mininone MiniMax M2.5mediumTersedia gratisvsQwen3.5-122B-A10Bnone Seed-2.0-LitenonevsMiniMax M2.5mediumTersedia gratis MiniMax M2.5mediumTersedia gratisvsQwen3.5-Flashnone Mercury 2nonevsMiniMax M2.7medium MiniMax M2.7mediumvsGPT-5.4 Mininone MiniMax M2.7mediumvsNemotron 3 Super 120b A12bnoneTersedia gratis MiniMax M2.7mediumvsQwen3.5-9Bnone