Perbandingan benchmark Gemma 4 31B vs Gemini 3 PRO Preview vs GLM 5 TurboGLM 5 Turbo unggul pada Skor dengan 8.4. Gemma 4 31B unggul pada Keandalan dengan 10.0. Gemma 4 31B memiliki Total Biaya terendah di $0.033. Gemini 3 PRO Preview paling cepat di 9.05s.
Model yang direkomendasikan: GLM 5 Turbo - It has the strongest score in this comparison (8.4) and the best overall balance of cost and response time across all 3 models.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-07-02
GLM 5 TurboGLM 5 TurbomediumModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.Rilis: 2026-03-15
Skor
6.3Skor rata-rata di semua tes benchmark.โฆ
6.2Skor rata-rata di semua tes benchmark.โฆ
8.4Skor rata-rata di semua tes benchmark.โฆ
Peringkat
#91
#94
#21
Keandalan
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
Konsistensi
9.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
8.5Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
Tes benar
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 2Kedaluwarsa: 2Jawaban salah: 2Tidak ada jawaban: 1Waktu respons (rata-rata)56.55sWaktu respons (maks)437.40sWaktu respons (total)1074.41sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 4Jawaban salah: 3Waktu respons (rata-rata)9.05sWaktu respons (maks)26.24sWaktu respons (total)90.53sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.89sWaktu respons (maks)26.66sWaktu respons (total)51.55sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
12.89sWaktu respons (rata-rata)โฆ
816Total token inputโฆ
962Token outputโฆ
2,046Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.99sWaktu respons (maks)26.24sWaktu respons (total)29.99sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
14.99sWaktu respons (rata-rata)โฆ
500Total token inputโฆ
149Token outputโฆ
1,485Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.82sWaktu respons (maks)7.69sWaktu respons (total)19.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Tidak ada jawaban: 1Waktu respons (rata-rata)219.76sWaktu respons (maks)437.40sWaktu respons (total)659.27sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
219.76sWaktu respons (rata-rata)โฆ
5,568Total token inputโฆ
11,098Token outputโฆ
33,212Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 3Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
0msWaktu respons (rata-rata)โฆ
0Total token inputโฆ
0Token outputโฆ
0Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.2Skor rata-rata di semua tes benchmark.โฆ
9.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)45.90sWaktu respons (maks)95.57sWaktu respons (total)137.71sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
0msWaktu respons (rata-rata)โฆ
0Total token inputโฆ
0Token outputโฆ
0Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.37sWaktu respons (maks)10.37sWaktu respons (total)10.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.37sWaktu respons (rata-rata)โฆ
13,211Total token inputโฆ
351Token outputโฆ
952Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.88sWaktu respons (maks)13.88sWaktu respons (total)13.88sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.11sWaktu respons (maks)21.94sWaktu respons (total)42.21sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
21.11sWaktu respons (rata-rata)โฆ
8,334Total token inputโฆ
1,822Token outputโฆ
2,951Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.84sWaktu respons (maks)10.84sWaktu respons (total)10.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.84sWaktu respons (rata-rata)โฆ
7,259Total token inputโฆ
279Token outputโฆ
3,156Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.19sWaktu respons (maks)6.42sWaktu respons (total)12.38sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)38.48sWaktu respons (maks)68.92sWaktu respons (total)115.43sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
38.48sWaktu respons (rata-rata)โฆ
876Total token inputโฆ
4,349Token outputโฆ
8,985Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
5.3Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.01sWaktu respons (maks)7.01sWaktu respons (total)7.01sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.01sWaktu respons (rata-rata)โฆ
643Total token inputโฆ
15Token outputโฆ
1,195Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
2.9Skor rata-rata di semua tes benchmark.โฆ
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
22.2%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)71.07sWaktu respons (maks)194.23sWaktu respons (total)213.22sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.57sWaktu respons (maks)9.57sWaktu respons (total)9.57sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
9.57sWaktu respons (rata-rata)โฆ
567Total token inputโฆ
105Token outputโฆ
888Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.34sWaktu respons (maks)9.34sWaktu respons (total)9.34sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
9.34sWaktu respons (rata-rata)โฆ
486Total token inputโฆ
78Token outputโฆ
374Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
6.1Skor rata-rata di semua tes benchmark.โฆ
3.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.05sWaktu respons (maks)10.05sWaktu respons (total)10.05sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.76sWaktu respons (maks)17.53sWaktu respons (total)25.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
12.76sWaktu respons (rata-rata)โฆ
777Total token inputโฆ
533Token outputโฆ
2,035Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
9.8Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)3.26sWaktu respons (total)3.26sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.26sWaktu respons (rata-rata)โฆ
623Total token inputโฆ
69Token outputโฆ
754Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.38sWaktu respons (maks)5.70sWaktu respons (total)10.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)26.91sWaktu respons (maks)61.08sWaktu respons (total)80.72sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
26.91sWaktu respons (rata-rata)โฆ
801Total token inputโฆ
1,795Token outputโฆ
5,595Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.88sWaktu respons (maks)4.23sWaktu respons (total)7.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.88sWaktu respons (rata-rata)โฆ
570Total token inputโฆ
225Token outputโฆ
1,215Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
8.7Skor rata-rata di semua tes benchmark.โฆ
7.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
77.8%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.23sWaktu respons (maks)7.26sWaktu respons (total)15.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
0msWaktu respons (rata-rata)โฆ
0Total token inputโฆ
0Token outputโฆ
0Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
11.96sWaktu respons (rata-rata)โฆ
5,556Total token inputโฆ
324Token outputโฆ
971Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.84sWaktu respons (maks)9.84sWaktu respons (total)9.84sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)90.14sWaktu respons (maks)90.14sWaktu respons (total)90.14sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
90.14sWaktu respons (rata-rata)โฆ
218Total token inputโฆ
1,692Token outputโฆ
10,014Token penalaranโฆ
Gemini 3 PRO PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
0msWaktu respons (rata-rata)โฆ
0Total token inputโฆ
0Token outputโฆ
0Token penalaranโฆ
GLM 5 TurboModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)40.17sWaktu respons (maks)40.17sWaktu respons (total)40.17sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ