9.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
9.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
8.525Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$1.023Total Biaya…
$0.000Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)11.23sWaktu respons (maks)46.35sWaktu respons (total)89.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)29.10sWaktu respons (maks)170.45sWaktu respons (total)290.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
77.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
68.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
35,159Token output…
71,452Token output…
Token penalaran
24,687Token penalaran…
155,147Token penalaran…
Waktu respons (rata-rata)
11.23sWaktu respons (rata-rata)…
29.10sWaktu respons (rata-rata)…
Waktu respons (maks)
46.35sWaktu respons (maks)…
170.45sWaktu respons (maks)…
Waktu respons (total)
89.84sWaktu respons (total)…
290.96sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)4.95sWaktu respons (maks)4.95sWaktu respons (total)4.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.95sWaktu respons (rata-rata)…
1,031Token output…
1,093Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.54sWaktu respons (maks)32.30sWaktu respons (total)37.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
18.54sWaktu respons (rata-rata)…
13,924Token output…
17,208Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.35sWaktu respons (maks)46.35sWaktu respons (total)46.35sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
46.35sWaktu respons (rata-rata)…
5,871Token output…
3,962Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)29.57sWaktu respons (maks)29.57sWaktu respons (total)29.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
29.57sWaktu respons (rata-rata)…
1,176Token output…
12,984Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.90sWaktu respons (maks)13.90sWaktu respons (total)13.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
13.90sWaktu respons (rata-rata)…
649Token output…
742Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.01sWaktu respons (maks)15.01sWaktu respons (total)15.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
15.01sWaktu respons (rata-rata)…
600Token output…
13,886Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
11.1%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
0msWaktu respons (rata-rata)…
25,790Token output…
16,919Token penalaran…
StepFun: Step 3.5 Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)170.45sWaktu respons (maks)170.45sWaktu respons (total)170.45sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
170.45sWaktu respons (rata-rata)…
45,350Token output…
90,436Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.94sWaktu respons (maks)4.94sWaktu respons (total)4.94sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.94sWaktu respons (rata-rata)…
256Token output…
433Token penalaran…
StepFun: Step 3.5 Flash
6.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.54sWaktu respons (maks)6.54sWaktu respons (total)6.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.54sWaktu respons (rata-rata)…
2,214Token output…
2,584Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.61sWaktu respons (maks)2.61sWaktu respons (total)2.61sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.61sWaktu respons (rata-rata)…
318Token output…
552Token penalaran…
StepFun: Step 3.5 Flash
9.0Skor rata-rata di semua tes benchmark.…
6.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.98sWaktu respons (maks)4.98sWaktu respons (total)4.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.98sWaktu respons (rata-rata)…
2,284Token output…
3,412Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.80sWaktu respons (maks)5.22sWaktu respons (total)9.60sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.80sWaktu respons (rata-rata)…
589Token output…
635Token penalaran…
StepFun: Step 3.5 Flash
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)7.72sWaktu respons (maks)10.60sWaktu respons (total)15.44sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.72sWaktu respons (rata-rata)…
5,629Token output…
10,835Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Anthropic: Claude Sonnet 4.6
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.48sWaktu respons (maks)7.48sWaktu respons (total)7.48sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.48sWaktu respons (rata-rata)…
655Token output…
351Token penalaran…
StepFun: Step 3.5 Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…