Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)68.84sWaktu respons (maks)280.52sWaktu respons (total)1101.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kesalahan API: 1Tidak mengikuti instruksi: 1Waktu respons (rata-rata)25.25sWaktu respons (maks)96.01sWaktu respons (total)252.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Konsistensi
9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
9.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
19.209Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.314Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$2.306Total Biaya…
$0.035Total Biaya…
Tingkat lulus per percobaan
77.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
72.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Token output
1,205Token output…
11,556Token output…
Token penalaran
1,530,700Token penalaran…
106,408Token penalaran…
Waktu respons (rata-rata)
68.84sWaktu respons (rata-rata)…
25.25sWaktu respons (rata-rata)…
Waktu respons (maks)
280.52sWaktu respons (maks)…
96.01sWaktu respons (maks)…
Waktu respons (total)
1101.43sWaktu respons (total)…
252.48sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.87sWaktu respons (maks)121.88sWaktu respons (total)131.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
43.87sWaktu respons (rata-rata)…
144Token output…
193,077Token penalaran…
Xiaomi: MiMo-V2-Flash
9.7Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.79sWaktu respons (maks)20.83sWaktu respons (total)33.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
16.79sWaktu respons (rata-rata)…
1,328Token output…
18,739Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)280.52sWaktu respons (maks)280.52sWaktu respons (total)280.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
280.52sWaktu respons (rata-rata)…
335Token output…
380,440Token penalaran…
Xiaomi: MiMo-V2-Flash
9.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)75.68sWaktu respons (maks)75.68sWaktu respons (total)75.68sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
75.68sWaktu respons (rata-rata)…
442Token output…
26,859Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.16sWaktu respons (maks)8.54sWaktu respons (total)14.31sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.16sWaktu respons (rata-rata)…
279Token output…
6,186Token penalaran…
Xiaomi: MiMo-V2-Flash
5.5Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
0msWaktu respons (rata-rata)…
153Token output…
0Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)127.58sWaktu respons (maks)133.93sWaktu respons (total)382.74sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
127.58sWaktu respons (rata-rata)…
18Token output…
566,202Token penalaran…
Xiaomi: MiMo-V2-Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)96.01sWaktu respons (maks)96.01sWaktu respons (total)96.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
96.01sWaktu respons (rata-rata)…
8,374Token output…
42,461Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.36sWaktu respons (maks)5.36sWaktu respons (total)5.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.36sWaktu respons (rata-rata)…
39Token output…
1,305Token penalaran…
Xiaomi: MiMo-V2-Flash
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.34sWaktu respons (maks)3.34sWaktu respons (total)3.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.34sWaktu respons (rata-rata)…
30Token output…
182Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
9.0Skor rata-rata di semua tes benchmark.…
6.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)70.07sWaktu respons (maks)136.53sWaktu respons (total)140.14sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
70.07sWaktu respons (rata-rata)…
69Token output…
190,053Token penalaran…
Xiaomi: MiMo-V2-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.28sWaktu respons (maks)7.37sWaktu respons (total)8.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.28sWaktu respons (rata-rata)…
75Token output…
3,504Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)46.33sWaktu respons (maks)134.22sWaktu respons (total)139.00sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
46.33sWaktu respons (rata-rata)…
87Token output…
190,953Token penalaran…
Xiaomi: MiMo-V2-Flash
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.77sWaktu respons (maks)5.26sWaktu respons (total)7.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.77sWaktu respons (rata-rata)…
833Token output…
1,948Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.73sWaktu respons (maks)7.73sWaktu respons (total)7.73sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.73sWaktu respons (rata-rata)…
234Token output…
2,484Token penalaran…
Xiaomi: MiMo-V2-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.78sWaktu respons (maks)27.78sWaktu respons (total)27.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…