Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.37sWaktu respons (maks)3.39sWaktu respons (total)20.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Jawaban salah: 2Kesalahan API: 1Tidak ada jawaban: 1Waktu respons (rata-rata)44.84sWaktu respons (maks)106.00sWaktu respons (total)672.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Konsistensi
9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
6.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.142Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
4.189Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.015Total Biaya…
$0.336Total Biaya…
Tingkat lulus per percobaan
71.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
80.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
6Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
45 (15 x 3)common.totalRuns…
45 (15 x 3)common.totalRuns…
Token output
4,646Token output…
5,475Token output…
Token penalaran
0Token penalaran…
165,513Token penalaran…
Waktu respons (rata-rata)
1.37sWaktu respons (rata-rata)…
44.84sWaktu respons (rata-rata)…
Waktu respons (maks)
3.39sWaktu respons (maks)…
106.00sWaktu respons (maks)…
Waktu respons (total)
20.53sWaktu respons (total)…
672.55sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
6.0Skor rata-rata di semua tes benchmark.…
7.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.16sWaktu respons (maks)1.47sWaktu respons (total)3.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.16sWaktu respons (rata-rata)…
1,086Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.75sWaktu respons (maks)34.96sWaktu respons (total)65.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
21.75sWaktu respons (rata-rata)…
429Token output…
36,235Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.20sWaktu respons (rata-rata)…
339Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)75.34sWaktu respons (maks)75.34sWaktu respons (total)75.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
75.34sWaktu respons (rata-rata)…
775Token output…
12,485Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.22sWaktu respons (maks)1.33sWaktu respons (total)2.44sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.22sWaktu respons (rata-rata)…
399Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
5.5Skor rata-rata di semua tes benchmark.…
5.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)59.33sWaktu respons (maks)97.12sWaktu respons (total)118.65sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
59.33sWaktu respons (rata-rata)…
235Token output…
19,493Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)942msWaktu respons (maks)1.12sWaktu respons (total)2.83sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
942msWaktu respons (rata-rata)…
568Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.5%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Jawaban salah: 1Waktu respons (rata-rata)88.34sWaktu respons (maks)106.00sWaktu respons (total)265.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
88.34sWaktu respons (rata-rata)…
41Token output…
46,368Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.14sWaktu respons (total)2.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.13sWaktu respons (rata-rata)…
574Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.45sWaktu respons (maks)43.36sWaktu respons (total)48.89sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
24.45sWaktu respons (rata-rata)…
97Token output…
17,361Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)972msWaktu respons (maks)1.13sWaktu respons (total)2.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
972msWaktu respons (rata-rata)…
898Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
4.0Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)31.58sWaktu respons (maks)60.18sWaktu respons (total)94.75sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
31.58sWaktu respons (rata-rata)…
3,589Token output…
32,206Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.39sWaktu respons (maks)3.39sWaktu respons (total)3.39sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.39sWaktu respons (rata-rata)…
782Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.65sWaktu respons (maks)4.65sWaktu respons (total)4.65sTes dianggap lulus penuh hanya jika semua run-nya lulus.…