9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
8.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.237Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.000Total Biaya…
$0.015Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2Waktu respons (rata-rata)3.15sWaktu respons (maks)8.91sWaktu respons (total)50.46sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 8Tidak mengikuti instruksi: 2Waktu respons (rata-rata)4.10sWaktu respons (maks)47.43sWaktu respons (total)65.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
3Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
1,837Token output…
3,756Token output…
Token penalaran
0Token penalaran…
0Token penalaran…
Waktu respons (rata-rata)
3.15sWaktu respons (rata-rata)…
4.10sWaktu respons (rata-rata)…
Waktu respons (maks)
8.91sWaktu respons (maks)…
47.43sWaktu respons (maks)…
Waktu respons (total)
50.46sWaktu respons (total)…
65.62sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)3.59sWaktu respons (maks)8.17sWaktu respons (total)10.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.59sWaktu respons (rata-rata)…
587Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.76sWaktu respons (maks)4.39sWaktu respons (total)5.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.76sWaktu respons (rata-rata)…
569Token output…
0Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.91sWaktu respons (maks)8.91sWaktu respons (total)8.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.91sWaktu respons (rata-rata)…
294Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)47.43sWaktu respons (maks)47.43sWaktu respons (total)47.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
47.43sWaktu respons (rata-rata)…
1,833Token output…
0Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)4.66sWaktu respons (total)6.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.26sWaktu respons (rata-rata)…
186Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.16sWaktu respons (maks)1.42sWaktu respons (total)2.33sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.16sWaktu respons (rata-rata)…
243Token output…
0Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)877msWaktu respons (maks)894msWaktu respons (total)2.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
877msWaktu respons (rata-rata)…
25Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)485msWaktu respons (maks)549msWaktu respons (total)1.45sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
485msWaktu respons (rata-rata)…
15Token output…
0Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.0Skor rata-rata di semua tes benchmark.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.86sWaktu respons (rata-rata)…
124Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
6.0Skor rata-rata di semua tes benchmark.…
3.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.19sWaktu respons (maks)1.19sWaktu respons (total)1.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.19sWaktu respons (rata-rata)…
114Token output…
0Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.5Skor rata-rata di semua tes benchmark.…
6.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
16.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.09sWaktu respons (maks)1.23sWaktu respons (total)2.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.09sWaktu respons (rata-rata)…
63Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
5.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)809msWaktu respons (maks)983msWaktu respons (total)1.62sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
809msWaktu respons (rata-rata)…
63Token output…
0Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.30sWaktu respons (maks)4.81sWaktu respons (total)9.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.30sWaktu respons (rata-rata)…
291Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
1.7Skor rata-rata di semua tes benchmark.…
7.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.34sWaktu respons (maks)2.25sWaktu respons (total)4.03sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.34sWaktu respons (rata-rata)…
655Token output…
0Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.67sWaktu respons (maks)6.67sWaktu respons (total)6.67sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.67sWaktu respons (rata-rata)…
267Token output…
0Token penalaran…
Qwen: Qwen3.5-35B-A3B
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.30sWaktu respons (maks)2.30sWaktu respons (total)2.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.…