9.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
1.025Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.000Total Biaya…
$0.164Total Biaya…
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2Waktu respons (rata-rata)3.15sWaktu respons (maks)8.91sWaktu respons (total)50.46sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.36sWaktu respons (maks)50.16sWaktu respons (total)111.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tingkat lulus per percobaan
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Total Run
48 (16 x 3)Total Run…
48 (16 x 3)Total Run…
Token output
1,837Token output…
1,634Token output…
Token penalaran
0Token penalaran…
47,907Token penalaran…
Waktu respons (rata-rata)
3.15sWaktu respons (rata-rata)…
12.36sWaktu respons (rata-rata)…
Waktu respons (maks)
8.91sWaktu respons (maks)…
50.16sWaktu respons (maks)…
Waktu respons (total)
50.46sWaktu respons (total)…
111.21sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)3.59sWaktu respons (maks)8.17sWaktu respons (total)10.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.59sWaktu respons (rata-rata)…
587Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.61sWaktu respons (maks)5.61sWaktu respons (total)5.61sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
5.61sWaktu respons (rata-rata)…
299Token output…
3,127Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.91sWaktu respons (maks)8.91sWaktu respons (total)8.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
8.91sWaktu respons (rata-rata)…
294Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)50.16sWaktu respons (maks)50.16sWaktu respons (total)50.16sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
50.16sWaktu respons (rata-rata)…
351Token output…
12,645Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)4.66sWaktu respons (total)6.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.26sWaktu respons (rata-rata)…
186Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.72sWaktu respons (maks)4.72sWaktu respons (total)4.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.72sWaktu respons (rata-rata)…
279Token output…
5,333Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)877msWaktu respons (maks)894msWaktu respons (total)2.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
877msWaktu respons (rata-rata)…
25Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.12sWaktu respons (maks)21.12sWaktu respons (total)21.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
21.12sWaktu respons (rata-rata)…
12Token output…
14,908Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.0Skor rata-rata di semua tes benchmark.…
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.86sWaktu respons (rata-rata)…
124Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.09sWaktu respons (maks)4.09sWaktu respons (total)4.09sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.09sWaktu respons (rata-rata)…
111Token output…
1,285Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
3.5Skor rata-rata di semua tes benchmark.…
6.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
16.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.09sWaktu respons (maks)1.23sWaktu respons (total)2.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.09sWaktu respons (rata-rata)…
63Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.10sWaktu respons (maks)6.10sWaktu respons (total)6.10sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.10sWaktu respons (rata-rata)…
72Token output…
4,558Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.30sWaktu respons (maks)4.81sWaktu respons (total)9.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.30sWaktu respons (rata-rata)…
291Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.43sWaktu respons (maks)4.68sWaktu respons (total)8.85sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
4.43sWaktu respons (rata-rata)…
276Token output…
4,921Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
Trinity Large Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.67sWaktu respons (maks)6.67sWaktu respons (total)6.67sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
6.67sWaktu respons (rata-rata)…
267Token output…
0Token penalaran…
Google: Gemini 3 Flash Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.55sWaktu respons (maks)10.55sWaktu respons (total)10.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…