Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 4Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)66.76sWaktu respons (maks)262.83sWaktu respons (total)867.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.38sWaktu respons (maks)11.91sWaktu respons (total)54.05sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
Konsistensi
9.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
Biaya per hasil
0.271Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
0.172Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).…
Total Biaya
$0.028Total Biaya…
$0.019Total Biaya…
Tingkat lulus per percobaan
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
68.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
common.totalRuns
46 (16 x 2.88)common.totalRuns…
46 (16 x 2.88)common.totalRuns…
Token output
1,810Token output…
1,565Token output…
Token penalaran
56,478Token penalaran…
7,016Token penalaran…
Waktu respons (rata-rata)
66.76sWaktu respons (rata-rata)…
3.38sWaktu respons (rata-rata)…
Waktu respons (maks)
262.83sWaktu respons (maks)…
11.91sWaktu respons (maks)…
Waktu respons (total)
867.84sWaktu respons (total)…
54.05sWaktu respons (total)…
Model teratas berdasarkan skor
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor Rata-rata vs Waktu respons (rata-rata)
Rincian Kategori
Trik anti-AI
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)98.99sWaktu respons (maks)182.10sWaktu respons (total)296.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
98.99sWaktu respons (rata-rata)…
354Token output…
9,352Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
7.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.18sWaktu respons (maks)3.18sWaktu respons (total)6.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.18sWaktu respons (rata-rata)…
456Token output…
1,224Token penalaran…
Gabungan
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)262.83sWaktu respons (maks)262.83sWaktu respons (total)262.83sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
262.83sWaktu respons (rata-rata)…
404Token output…
29,806Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
11.91sWaktu respons (rata-rata)…
225Token output…
762Token penalaran…
Parsing dan ekstraksi data
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.27sWaktu respons (maks)27.52sWaktu respons (total)48.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
24.27sWaktu respons (rata-rata)…
246Token output…
2,743Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
9.9Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.00sWaktu respons (maks)3.74sWaktu respons (total)5.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
3.00sWaktu respons (rata-rata)…
291Token output…
696Token penalaran…
Spesifik domain
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.…
0msWaktu respons (rata-rata)…
0Token output…
0Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
4.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)2.36sWaktu respons (maks)3.51sWaktu respons (total)7.07sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.36sWaktu respons (rata-rata)…
18Token output…
1,212Token penalaran…
Kecerdasan umum
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
6.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)58.35sWaktu respons (maks)58.35sWaktu respons (total)58.35sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
58.35sWaktu respons (rata-rata)…
58Token output…
2,232Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
3.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.76sWaktu respons (maks)1.76sWaktu respons (total)1.76sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.76sWaktu respons (rata-rata)…
23Token output…
128Token penalaran…
Kepatuhan instruksi
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.47sWaktu respons (maks)19.46sWaktu respons (total)34.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
17.47sWaktu respons (rata-rata)…
69Token output…
2,050Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.49sWaktu respons (maks)1.66sWaktu respons (total)2.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
1.49sWaktu respons (rata-rata)…
72Token output…
753Token penalaran…
Puzzle Solving
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
7.0Skor rata-rata di semua tes benchmark.…
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)25.85sWaktu respons (maks)32.95sWaktu respons (total)77.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
25.85sWaktu respons (rata-rata)…
457Token output…
5,060Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.76sWaktu respons (maks)5.08sWaktu respons (total)8.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
2.76sWaktu respons (rata-rata)…
243Token output…
1,248Token penalaran…
Pemanggilan alat
Skor
Konsistensi
Tingkat lulus per percobaan
Tes tidak stabil
Tes benar
Waktu respons (rata-rata)
Token output
Token penalaran
ByteDance Seed: Seed-2.0-Mini
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)88.68sWaktu respons (maks)88.68sWaktu respons (total)88.68sTes dianggap lulus penuh hanya jika semua run-nya lulus.…
88.68sWaktu respons (rata-rata)…
222Token output…
5,235Token penalaran…
Google: Gemini 3.1 Flash Lite Preview
10.0Skor rata-rata di semua tes benchmark.…
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).…
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.…
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).…
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.54sWaktu respons (maks)9.54sWaktu respons (total)9.54sTes dianggap lulus penuh hanya jika semua run-nya lulus.…