Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 2Waktu respons (rata-rata)1.33sWaktu respons (maks)3.39sWaktu respons (total)21.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Kesalahan API: 1Jawaban salah: 1Waktu respons (rata-rata)70.90sWaktu respons (maks)234.29sWaktu respons (total)1134.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Konsistensi
9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.143Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.552Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.015Total Biaya…
$0.061Total Biaya…
Tingkat lulus per percobaan
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Token output
4,669Token output…
1,736Token output…
Token penalaran
0Token penalaran…
141,900Token penalaran…
Waktu respons (rata-rata)
1.33sWaktu respons (rata-rata)…
70.90sWaktu respons (rata-rata)…
Waktu respons (maks)
3.39sWaktu respons (maks)…
234.29sWaktu respons (maks)…
Waktu respons (total)
21.34sWaktu respons (total)…
1134.43sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
6.0Skor rata-rata di semua tes benchmark.…
7.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.16sWaktu respons (maks)1.47sWaktu respons (total)3.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.16sWaktu respons (rata-rata)…
1,086Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.35sWaktu respons (maks)168.31sWaktu respons (total)214.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
71.35sWaktu respons (rata-rata)…
363Token output…
23,645Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.20sWaktu respons (rata-rata)…
339Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.78sWaktu respons (maks)17.78sWaktu respons (total)17.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
17.78sWaktu respons (rata-rata)…
483Token output…
8,270Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.22sWaktu respons (maks)1.33sWaktu respons (total)2.44sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.22sWaktu respons (rata-rata)…
399Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
5.5Skor rata-rata di semua tes benchmark.…
5.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)56.99sWaktu respons (maks)80.14sWaktu respons (total)113.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.99sWaktu respons (rata-rata)…
235Token output…
16,237Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)942msWaktu respons (maks)1.12sWaktu respons (total)2.83sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
942msWaktu respons (rata-rata)…
568Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)146.50sWaktu respons (maks)234.29sWaktu respons (total)439.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
146.50sWaktu respons (rata-rata)…
58Token output…
43,615Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)808msWaktu respons (maks)808msWaktu respons (total)808msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
808msWaktu respons (rata-rata)…
23Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)41.59sWaktu respons (maks)41.59sWaktu respons (total)41.59sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
41.59sWaktu respons (rata-rata)…
28Token output…
10,434Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.14sWaktu respons (total)2.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.13sWaktu respons (rata-rata)…
574Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.49sWaktu respons (maks)111.61sWaktu respons (total)126.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
63.49sWaktu respons (rata-rata)…
98Token output…
14,139Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)972msWaktu respons (maks)1.13sWaktu respons (total)2.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
972msWaktu respons (rata-rata)…
898Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)56.74sWaktu respons (maks)115.01sWaktu respons (total)170.23sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.74sWaktu respons (rata-rata)…
162Token output…
24,276Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.39sWaktu respons (maks)3.39sWaktu respons (total)3.39sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.39sWaktu respons (rata-rata)…
782Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.33sWaktu respons (maks)10.33sWaktu respons (total)10.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…