Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Waktu respons (rata-rata)3.49sWaktu respons (maks)11.91sWaktu respons (total)52.29sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Kesalahan API: 1Jawaban salah: 1Waktu respons (rata-rata)72.86sWaktu respons (maks)234.29sWaktu respons (total)1092.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Konsistensi
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
7.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.170Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.565Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.019Total Biaya…
$0.057Total Biaya…
Tingkat lulus per percobaan
73.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
82.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Token output
1,542Token output…
1,708Token output…
Token penalaran
6,888Token penalaran…
131,466Token penalaran…
Waktu respons (rata-rata)
3.49sWaktu respons (rata-rata)…
72.86sWaktu respons (rata-rata)…
Waktu respons (maks)
11.91sWaktu respons (maks)…
234.29sWaktu respons (maks)…
Waktu respons (total)
52.29sWaktu respons (total)…
1092.84sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.18sWaktu respons (maks)3.18sWaktu respons (total)6.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.18sWaktu respons (rata-rata)…
456Token output…
1,224Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.35sWaktu respons (maks)168.31sWaktu respons (total)214.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
71.35sWaktu respons (rata-rata)…
363Token output…
23,645Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
11.91sWaktu respons (rata-rata)…
225Token output…
762Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.78sWaktu respons (maks)17.78sWaktu respons (total)17.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
17.78sWaktu respons (rata-rata)…
483Token output…
8,270Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.00sWaktu respons (maks)3.74sWaktu respons (total)5.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.00sWaktu respons (rata-rata)…
291Token output…
696Token penalaran…
Qwen: Qwen3.5-Flash
5.5Skor rata-rata di semua tes benchmark.…
5.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)56.99sWaktu respons (maks)80.14sWaktu respons (total)113.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.99sWaktu respons (rata-rata)…
235Token output…
16,237Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)2.36sWaktu respons (maks)3.51sWaktu respons (total)7.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.36sWaktu respons (rata-rata)…
18Token output…
1,212Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)146.50sWaktu respons (maks)234.29sWaktu respons (total)439.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
146.50sWaktu respons (rata-rata)…
58Token output…
43,615Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.49sWaktu respons (maks)1.66sWaktu respons (total)2.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.49sWaktu respons (rata-rata)…
72Token output…
753Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.49sWaktu respons (maks)111.61sWaktu respons (total)126.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
63.49sWaktu respons (rata-rata)…
98Token output…
14,139Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.76sWaktu respons (maks)5.08sWaktu respons (total)8.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.76sWaktu respons (rata-rata)…
243Token output…
1,248Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)56.74sWaktu respons (maks)115.01sWaktu respons (total)170.23sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.74sWaktu respons (rata-rata)…
162Token output…
24,276Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.54sWaktu respons (maks)9.54sWaktu respons (total)9.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.54sWaktu respons (rata-rata)…
237Token output…
993Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.33sWaktu respons (maks)10.33sWaktu respons (total)10.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…