Perbandingan benchmark Gemma 4 31B vs Gemini 3 Flash Preview vs Gemini 3 PRO Preview vs Gemini 3.1 Pro PreviewGemini 3 Flash Preview unggul pada Skor dengan 9.6. Gemma 4 31B unggul pada Keandalan dengan 10.0. Gemma 4 31B memiliki Total Biaya terendah di $0.033. Gemini 3 PRO Preview paling cepat di 9.05s.
Model yang direkomendasikan: Gemini 3 Flash Preview - It has the best score here (9.6), while responding about 1.5x faster than model lain dalam perbandingan ini.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
Konsistensi
9.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
9.7Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 2Kedaluwarsa: 2Jawaban salah: 2Tidak ada jawaban: 1Waktu respons (rata-rata)56.55sWaktu respons (maks)437.40sWaktu respons (total)1074.41sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)18.64sWaktu respons (maks)117.26sWaktu respons (total)391.35sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 4Jawaban salah: 3Waktu respons (rata-rata)9.05sWaktu respons (maks)26.24sWaktu respons (total)90.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)20.14sWaktu respons (maks)88.68sWaktu respons (total)281.92sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tingkat lulus per percobaan
69.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
98.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
90.5%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
Tes tidak stabil
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Total Run
63Total Runโฆ
63Total Runโฆ
63Total Runโฆ
63Total Runโฆ
Biaya per hasil
0.257Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
3.335Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
1.406Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
5.546Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
Total Biaya
$0.033Total biaya (harga saat ini)โฆ
$0.667Total biaya (harga saat ini)โฆ
$0.385Total biaya (harga saat ini)โฆ
$1.054Total biaya (harga saat ini)โฆ
Harga input
$0.120 / 1MHarga inputโฆ
$0.500 / 1MHarga inputโฆ
$9.506 / 1MHarga inputโฆ
$2.000 / 1MHarga inputโฆ
Harga output
$0.350 / 1MHarga outputโฆ
$3.000 / 1MHarga outputโฆ
$9.506 / 1MHarga outputโฆ
$12.000 / 1MHarga outputโฆ
Total token input
17,957Total token inputโฆ
37,017Total token inputโฆ
28,848Total token inputโฆ
41,617Total token inputโฆ
Token output
22,356Token outputโฆ
2,006Token outputโฆ
1,490Token outputโฆ
1,977Token outputโฆ
Token penalaran
65,726Token penalaranโฆ
214,153Token penalaranโฆ
10,102Token penalaranโฆ
78,896Token penalaranโฆ
Waktu respons (rata-rata)
56.55sWaktu respons (rata-rata)โฆ
18.64sWaktu respons (rata-rata)โฆ
9.05sWaktu respons (rata-rata)โฆ
20.14sWaktu respons (rata-rata)โฆ
Waktu respons (maks)
437.40sWaktu respons (maks)โฆ
117.26sWaktu respons (maks)โฆ
26.24sWaktu respons (maks)โฆ
88.68sWaktu respons (maks)โฆ
Waktu respons (total)
1074.41sWaktu respons (total)โฆ
391.35sWaktu respons (total)โฆ
90.53sWaktu respons (total)โฆ
281.92sWaktu respons (total)โฆ
Showcase generasi
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#91 Gemma 4 31B
medium
Biaya
$0.002
Waktu
45.7s
Token
2,696 tok
#2 Gemini 3 Flash Preview
medium
Biaya
$0.010
Waktu
17.9s
Token
3,236 tok
#94 Gemini 3 PRO Preview
medium
No endpoints found for google/gemini-3-pro-preview.
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.89sWaktu respons (maks)26.66sWaktu respons (total)51.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.88sWaktu respons (maks)5.73sWaktu respons (total)15.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.88sWaktu respons (rata-rata)โฆ
494Total token inputโฆ
330Token outputโฆ
3,216Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.99sWaktu respons (maks)26.24sWaktu respons (total)29.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.90sWaktu respons (maks)9.52sWaktu respons (total)15.80sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Tidak ada jawaban: 1Waktu respons (rata-rata)219.76sWaktu respons (maks)437.40sWaktu respons (total)659.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)84.40sWaktu respons (maks)117.26sWaktu respons (total)253.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
84.40sWaktu respons (rata-rata)โฆ
8,122Total token inputโฆ
462Token outputโฆ
161,084Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 3Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
9.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)40.17sWaktu respons (maks)88.68sWaktu respons (total)120.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)22.42sWaktu respons (maks)22.42sWaktu respons (total)22.42sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
22.42sWaktu respons (rata-rata)โฆ
12,873Total token inputโฆ
351Token outputโฆ
10,485Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.37sWaktu respons (maks)10.37sWaktu respons (total)10.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)40.61sWaktu respons (maks)40.61sWaktu respons (total)40.61sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.11sWaktu respons (maks)21.94sWaktu respons (total)42.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.43sWaktu respons (maks)6.18sWaktu respons (total)10.86sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.43sWaktu respons (rata-rata)โฆ
7,548Total token inputโฆ
279Token outputโฆ
4,893Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.84sWaktu respons (maks)10.84sWaktu respons (total)10.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)38.48sWaktu respons (maks)68.92sWaktu respons (total)115.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.27sWaktu respons (maks)34.09sWaktu respons (total)45.80sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
15.27sWaktu respons (rata-rata)โฆ
633Total token inputโฆ
12Token outputโฆ
21,684Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.01sWaktu respons (maks)7.01sWaktu respons (total)7.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)32.73sWaktu respons (maks)32.73sWaktu respons (total)32.73sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.57sWaktu respons (maks)9.57sWaktu respons (total)9.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.19sWaktu respons (maks)5.19sWaktu respons (total)5.19sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.19sWaktu respons (rata-rata)โฆ
486Total token inputโฆ
72Token outputโฆ
1,905Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.34sWaktu respons (maks)9.34sWaktu respons (total)9.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.77sWaktu respons (maks)11.77sWaktu respons (total)11.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.76sWaktu respons (maks)17.53sWaktu respons (total)25.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.04sWaktu respons (maks)4.70sWaktu respons (total)8.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.04sWaktu respons (rata-rata)โฆ
615Total token inputโฆ
72Token outputโฆ
2,709Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
9.8Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)3.26sWaktu respons (total)3.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)26.91sWaktu respons (maks)61.08sWaktu respons (total)80.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.05sWaktu respons (maks)5.64sWaktu respons (total)12.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.05sWaktu respons (rata-rata)โฆ
558Total token inputโฆ
183Token outputโฆ
4,365Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.88sWaktu respons (maks)4.23sWaktu respons (total)7.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.90sWaktu respons (maks)8.49sWaktu respons (total)13.79sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.60sWaktu respons (maks)12.60sWaktu respons (total)12.60sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
12.60sWaktu respons (rata-rata)โฆ
5,532Total token inputโฆ
234Token outputโฆ
1,487Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.15sWaktu respons (maks)23.15sWaktu respons (total)23.15sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)90.14sWaktu respons (maks)90.14sWaktu respons (total)90.14sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.50sWaktu respons (maks)5.50sWaktu respons (total)5.50sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.50sWaktu respons (rata-rata)โฆ
156Total token inputโฆ
11Token outputโฆ
2,325Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.27sWaktu respons (maks)6.27sWaktu respons (total)6.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ