9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
3.417Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.000Total Biaya…
$0.513Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2Waktu respons (rata-rata)3.15sWaktu respons (maks)8.91sWaktu respons (total)50.46sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)16.60sWaktu respons (maks)40.61sWaktu respons (total)149.36sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
93.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
1,837Token output…
1,521Token output…
Token penalaran
0Token penalaran…
35,656Token penalaran…
Waktu respons (rata-rata)
3.15sWaktu respons (rata-rata)…
16.60sWaktu respons (rata-rata)…
Waktu respons (maks)
8.91sWaktu respons (maks)…
40.61sWaktu respons (maks)…
Waktu respons (total)
50.46sWaktu respons (total)…
149.36sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)3.59sWaktu respons (maks)8.17sWaktu respons (total)10.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.59sWaktu respons (rata-rata)…
587Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.52sWaktu respons (maks)9.52sWaktu respons (total)9.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.52sWaktu respons (rata-rata)…
106Token output…
2,533Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.91sWaktu respons (maks)8.91sWaktu respons (total)8.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.91sWaktu respons (rata-rata)…
294Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
9.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)40.61sWaktu respons (maks)40.61sWaktu respons (total)40.61sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
40.61sWaktu respons (rata-rata)…
432Token output…
9,281Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)4.66sWaktu respons (total)6.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.26sWaktu respons (rata-rata)…
186Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.72sWaktu respons (rata-rata)…
279Token output…
3,904Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)877msWaktu respons (maks)894msWaktu respons (total)2.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
877msWaktu respons (rata-rata)…
25Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)32.73sWaktu respons (maks)32.73sWaktu respons (total)32.73sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
32.73sWaktu respons (rata-rata)…
18Token output…
12,424Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.0Skor rata-rata di semua tes benchmark.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.86sWaktu respons (rata-rata)…
124Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.77sWaktu respons (maks)11.77sWaktu respons (total)11.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
11.77sWaktu respons (rata-rata)…
108Token output…
1,179Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.5Skor rata-rata di semua tes benchmark.…
6.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
16.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.09sWaktu respons (maks)1.23sWaktu respons (total)2.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.09sWaktu respons (rata-rata)…
63Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
9.56sWaktu respons (rata-rata)…
72Token output…
2,236Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.30sWaktu respons (maks)4.81sWaktu respons (total)9.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.30sWaktu respons (rata-rata)…
291Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.15sWaktu respons (maks)8.49sWaktu respons (total)14.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
7.15sWaktu respons (rata-rata)…
232Token output…
3,117Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.67sWaktu respons (maks)6.67sWaktu respons (total)6.67sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.67sWaktu respons (rata-rata)…
267Token output…
0Token penalaran…
Google: Gemini 3.1 Pro Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.15sWaktu respons (maks)23.15sWaktu respons (total)23.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.…