8.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
8.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.220Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
6.601Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.016Total Biaya…
$0.793Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 6Format tambahan: 2invalid tool call: 1Waktu respons (rata-rata)12.86sWaktu respons (maks)115.89sWaktu respons (total)205.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 2Waktu respons (rata-rata)20.05sWaktu respons (maks)100.41sWaktu respons (total)320.87sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
54.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
7,823Token output…
1,756Token output…
Token penalaran
0Token penalaran…
46,642Token penalaran…
Waktu respons (rata-rata)
12.86sWaktu respons (rata-rata)…
20.05sWaktu respons (rata-rata)…
Waktu respons (maks)
115.89sWaktu respons (maks)…
100.41sWaktu respons (maks)…
Waktu respons (total)
205.78sWaktu respons (total)…
320.87sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
9.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)8.79sWaktu respons (maks)12.26sWaktu respons (total)26.38sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.79sWaktu respons (rata-rata)…
1,411Token output…
0Token penalaran…
OpenAI: GPT-5.4
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.02sWaktu respons (maks)6.42sWaktu respons (total)15.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.02sWaktu respons (rata-rata)…
216Token output…
1,466Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
8.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)115.89sWaktu respons (maks)115.89sWaktu respons (total)115.89sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
115.89sWaktu respons (rata-rata)…
2,887Token output…
0Token penalaran…
OpenAI: GPT-5.4
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.57sWaktu respons (maks)20.57sWaktu respons (total)20.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
20.57sWaktu respons (rata-rata)…
301Token output…
3,543Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
5.4Skor rata-rata di semua tes benchmark.…
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)9.42sWaktu respons (maks)16.20sWaktu respons (total)18.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.42sWaktu respons (rata-rata)…
1,710Token output…
0Token penalaran…
OpenAI: GPT-5.4
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.32sWaktu respons (maks)5.40sWaktu respons (total)10.64sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.32sWaktu respons (rata-rata)…
234Token output…
804Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.61sWaktu respons (maks)1.77sWaktu respons (total)4.83sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.61sWaktu respons (rata-rata)…
24Token output…
0Token penalaran…
OpenAI: GPT-5.4
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)74.27sWaktu respons (maks)100.41sWaktu respons (total)222.80sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
74.27sWaktu respons (rata-rata)…
61Token output…
34,748Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.86sWaktu respons (rata-rata)…
67Token output…
0Token penalaran…
OpenAI: GPT-5.4
5.0Skor rata-rata di semua tes benchmark.…
3.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.92sWaktu respons (maks)4.92sWaktu respons (total)4.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.92sWaktu respons (rata-rata)…
145Token output…
321Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.52sWaktu respons (maks)1.99sWaktu respons (total)3.04sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.52sWaktu respons (rata-rata)…
66Token output…
0Token penalaran…
OpenAI: GPT-5.4
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.11sWaktu respons (maks)3.68sWaktu respons (total)6.22sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.11sWaktu respons (rata-rata)…
93Token output…
897Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
7.7Skor rata-rata di semua tes benchmark.…
7.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.37sWaktu respons (maks)10.78sWaktu respons (total)22.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.37sWaktu respons (rata-rata)…
1,136Token output…
0Token penalaran…
OpenAI: GPT-5.4
7.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)9.13sWaktu respons (maks)18.14sWaktu respons (total)27.39sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.13sWaktu respons (rata-rata)…
442Token output…
3,832Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
DeepSeek: DeepSeek V3.2
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.85sWaktu respons (maks)11.85sWaktu respons (total)11.85sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
11.85sWaktu respons (rata-rata)…
522Token output…
0Token penalaran…
OpenAI: GPT-5.4
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.28sWaktu respons (maks)13.28sWaktu respons (total)13.28sTes dianggap lulus penuh hanya jika semua run-nya lulus.…