9.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
7.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
2.440Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.720Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.269Total Biaya…
$0.072Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)7.03sWaktu respons (maks)38.52sWaktu respons (total)112.51sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Kesalahan API: 1Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)70.81sWaktu respons (maks)234.29sWaktu respons (total)1132.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
81.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
5Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
48 (16 x 3)common.totalRuns…
48 (16 x 3)common.totalRuns…
Token output
15,845Token output…
1,807Token output…
Token penalaran
0Token penalaran…
169,952Token penalaran…
Waktu respons (rata-rata)
7.03sWaktu respons (rata-rata)…
70.81sWaktu respons (rata-rata)…
Waktu respons (maks)
38.52sWaktu respons (maks)…
234.29sWaktu respons (maks)…
Waktu respons (total)
112.51sWaktu respons (total)…
1132.90sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.97sWaktu respons (maks)4.78sWaktu respons (total)11.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.97sWaktu respons (rata-rata)…
1,651Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.35sWaktu respons (maks)168.31sWaktu respons (total)214.06sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
71.35sWaktu respons (rata-rata)…
363Token output…
23,645Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.12sWaktu respons (maks)9.12sWaktu respons (total)9.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.12sWaktu respons (rata-rata)…
1,243Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.78sWaktu respons (maks)17.78sWaktu respons (total)17.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
17.78sWaktu respons (rata-rata)…
483Token output…
8,270Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.05sWaktu respons (maks)3.33sWaktu respons (total)6.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.05sWaktu respons (rata-rata)…
980Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
5.5Skor rata-rata di semua tes benchmark.…
5.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)56.99sWaktu respons (maks)80.14sWaktu respons (total)113.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.99sWaktu respons (rata-rata)…
235Token output…
16,237Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)17.78sWaktu respons (maks)38.52sWaktu respons (total)53.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
17.78sWaktu respons (rata-rata)…
7,810Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)146.50sWaktu respons (maks)234.29sWaktu respons (total)439.49sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
146.50sWaktu respons (rata-rata)…
58Token output…
43,615Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
4.0Skor rata-rata di semua tes benchmark.…
3.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.20sWaktu respons (rata-rata)…
335Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
5.0Skor rata-rata di semua tes benchmark.…
3.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)40.05sWaktu respons (maks)40.05sWaktu respons (total)40.05sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
40.05sWaktu respons (rata-rata)…
99Token output…
38,486Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
6.0Skor rata-rata di semua tes benchmark.…
6.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.46sWaktu respons (maks)6.45sWaktu respons (total)10.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.46sWaktu respons (rata-rata)…
1,528Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.49sWaktu respons (maks)111.61sWaktu respons (total)126.98sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
63.49sWaktu respons (rata-rata)…
98Token output…
14,139Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.42sWaktu respons (maks)5.04sWaktu respons (total)13.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.42sWaktu respons (rata-rata)…
1,743Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
4.0Skor rata-rata di semua tes benchmark.…
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)56.74sWaktu respons (maks)115.01sWaktu respons (total)170.23sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
56.74sWaktu respons (rata-rata)…
162Token output…
24,276Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
OpenAI: GPT-5.2 Chat
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.68sWaktu respons (maks)4.68sWaktu respons (total)4.68sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.68sWaktu respons (rata-rata)…
555Token output…
0Token penalaran…
Qwen: Qwen3.5-Flash
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.33sWaktu respons (maks)10.33sWaktu respons (total)10.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…