9.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
9.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.169Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.019Total Biaya…
$0.000Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Waktu respons (rata-rata)1.75sWaktu respons (maks)3.56sWaktu respons (total)15.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)29.10sWaktu respons (maks)170.45sWaktu respons (total)290.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
68.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
1,411Token output…
71,452Token output…
Token penalaran
0Token penalaran…
155,147Token penalaran…
Waktu respons (rata-rata)
1.75sWaktu respons (rata-rata)…
29.10sWaktu respons (rata-rata)…
Waktu respons (maks)
3.56sWaktu respons (maks)…
170.45sWaktu respons (maks)…
Waktu respons (total)
15.71sWaktu respons (total)…
290.96sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.59sWaktu respons (maks)1.59sWaktu respons (total)1.59sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.59sWaktu respons (rata-rata)…
208Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.54sWaktu respons (maks)32.30sWaktu respons (total)37.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
18.54sWaktu respons (rata-rata)…
13,924Token output…
17,208Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.56sWaktu respons (maks)3.56sWaktu respons (total)3.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.56sWaktu respons (rata-rata)…
350Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)29.57sWaktu respons (maks)29.57sWaktu respons (total)29.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
29.57sWaktu respons (rata-rata)…
1,176Token output…
12,984Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.41sWaktu respons (maks)1.41sWaktu respons (total)1.41sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.41sWaktu respons (rata-rata)…
279Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.01sWaktu respons (maks)15.01sWaktu respons (total)15.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
15.01sWaktu respons (rata-rata)…
600Token output…
13,886Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)963msWaktu respons (maks)963msWaktu respons (total)963msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
963msWaktu respons (rata-rata)…
18Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)170.45sWaktu respons (maks)170.45sWaktu respons (total)170.45sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
170.45sWaktu respons (rata-rata)…
45,350Token output…
90,436Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.13sWaktu respons (total)1.13sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.13sWaktu respons (rata-rata)…
104Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
6.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.54sWaktu respons (maks)6.54sWaktu respons (total)6.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.54sWaktu respons (rata-rata)…
2,214Token output…
2,584Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
5.5Skor rata-rata di semua tes benchmark.…
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.58sWaktu respons (maks)1.58sWaktu respons (total)1.58sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.58sWaktu respons (rata-rata)…
74Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
9.0Skor rata-rata di semua tes benchmark.…
6.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.98sWaktu respons (maks)4.98sWaktu respons (total)4.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.98sWaktu respons (rata-rata)…
2,284Token output…
3,412Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.06sWaktu respons (maks)1.06sWaktu respons (total)2.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.06sWaktu respons (rata-rata)…
144Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)7.72sWaktu respons (maks)10.60sWaktu respons (total)15.44sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.72sWaktu respons (rata-rata)…
5,629Token output…
10,835Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.35sWaktu respons (maks)3.35sWaktu respons (total)3.35sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.35sWaktu respons (rata-rata)…
234Token output…
0Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…