AI BENCHY
Advertise here

Kegagalan AI BENCHY

Kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

15

Total kegagalan

1104

Model yang paling terdampak

Mercury 2 15
Peringkat Model Perusahaan Jumlah Jawaban salah Skor Tes benar Waktu respons (rata-rata)
#85 Kimi K2.5 medium Moonshot AI 5 6.7 9/20 89.0s
#102 Nemotron 3 Super medium NVIDIA 5 5.9 8/20 20.9s
#11 GPT-5.5 medium OpenAI 4 8.7 16/20 37.9s
#13 Gemini 3 Flash Preview low Google 4 8.6 16/20 5.81s
#17 GPT-5.3-Codex medium OpenAI 4 8.3 14/20 16.0s
#23 Qwen3.5 Plus 2026-02-15 medium Qwen 4 8.1 14/20 67.6s
#26 Hy3 preview low Tencent 4 7.9 15/20 24.6s
#27 Gemini 3.5 Flash minimal Google 4 7.9 14/20 1.58s
#31 GLM 5 Turbo medium Z.ai 4 7.9 13/20 22.7s
#35 Qwen3.6 35B A3B medium Qwen 4 7.8 14/20 17.3s
#36 Grok 4.3 medium X AI 4 7.8 13/20 49.2s
#45 Grok Build 0.1 medium X AI 4 7.7 13/20 42.4s
#56 GLM 5.1 medium Z.ai 4 7.4 12/20 33.5s
#58 MiMo-V2.5 medium Xiaomi 4 7.4 12/20 20.3s
#61 Step 3.5 Flash medium Stepfun 4 7.4 11/19 43.2s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)