8.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.220Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
3.125Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.016Total Biaya…
$0.313Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 6Format tambahan: 2invalid tool call: 1Waktu respons (rata-rata)12.86sWaktu respons (maks)115.89sWaktu respons (total)205.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Tidak ada jawaban: 1Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)15.33sWaktu respons (maks)77.80sWaktu respons (total)138.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
54.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48Total Run…
48Total Run…
Token output
7,823Token output…
2,220Token output…
Token penalaran
0Token penalaran…
16,811Token penalaran…
Waktu respons (rata-rata)
12.86sWaktu respons (rata-rata)…
15.33sWaktu respons (rata-rata)…
Waktu respons (maks)
115.89sWaktu respons (maks)…
77.80sWaktu respons (maks)…
Waktu respons (total)
205.78sWaktu respons (total)…
138.01sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
9.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)8.79sWaktu respons (maks)12.26sWaktu respons (total)26.38sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.79sWaktu respons (rata-rata)…
1,411Token output…
0Token penalaran…
OpenAI: GPT-5.2
7.0Skor rata-rata di semua tes benchmark.…
7.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.34sWaktu respons (maks)14.34sWaktu respons (total)14.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
14.34sWaktu respons (rata-rata)…
549Token output…
2,002Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
8.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)115.89sWaktu respons (maks)115.89sWaktu respons (total)115.89sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
115.89sWaktu respons (rata-rata)…
2,887Token output…
0Token penalaran…
OpenAI: GPT-5.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.06sWaktu respons (maks)14.06sWaktu respons (total)14.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
14.06sWaktu respons (rata-rata)…
291Token output…
1,757Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
5.4Skor rata-rata di semua tes benchmark.…
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)9.42sWaktu respons (maks)16.20sWaktu respons (total)18.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.42sWaktu respons (rata-rata)…
1,710Token output…
0Token penalaran…
OpenAI: GPT-5.2
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.15sWaktu respons (maks)3.15sWaktu respons (total)3.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.15sWaktu respons (rata-rata)…
234Token output…
420Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.61sWaktu respons (maks)1.77sWaktu respons (total)4.83sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.61sWaktu respons (rata-rata)…
24Token output…
0Token penalaran…
OpenAI: GPT-5.2
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
55.6%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)77.80sWaktu respons (maks)77.80sWaktu respons (total)77.80sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
77.80sWaktu respons (rata-rata)…
42Token output…
10,342Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.86sWaktu respons (rata-rata)…
67Token output…
0Token penalaran…
OpenAI: GPT-5.2
10.0Skor rata-rata di semua tes benchmark.…
9.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.32sWaktu respons (maks)4.32sWaktu respons (total)4.32sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.32sWaktu respons (rata-rata)…
162Token output…
269Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.52sWaktu respons (maks)1.99sWaktu respons (total)3.04sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.52sWaktu respons (rata-rata)…
66Token output…
0Token penalaran…
OpenAI: GPT-5.2
9.5Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.12sWaktu respons (maks)3.12sWaktu respons (total)3.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.12sWaktu respons (rata-rata)…
94Token output…
614Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
7.7Skor rata-rata di semua tes benchmark.…
7.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.37sWaktu respons (maks)10.78sWaktu respons (total)22.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.37sWaktu respons (rata-rata)…
1,136Token output…
0Token penalaran…
OpenAI: GPT-5.2
7.0Skor rata-rata di semua tes benchmark.…
7.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.47sWaktu respons (maks)6.45sWaktu respons (total)10.94sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.47sWaktu respons (rata-rata)…
609Token output…
938Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.85sWaktu respons (maks)11.85sWaktu respons (total)11.85sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
11.85sWaktu respons (rata-rata)…
522Token output…
0Token penalaran…
OpenAI: GPT-5.2
10.0Skor rata-rata di semua tes benchmark.…
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)10.30sWaktu respons (maks)10.30sWaktu respons (total)10.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.…