Kegagalan AI BENCHY
Kegagalan Jawaban salah
Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Spesifik domain307 Dalam kategori Trik anti-AI236 Dalam kategori Pemecahan teka-teki142 Dalam kategori Pengetahuan umum127 Dalam kategori Pemrograman121 Dalam kategori Kepatuhan instruksi52 Dalam kategori Gabungan51 Dalam kategori Parsing dan ekstraksi data35 Dalam kategori Kecerdasan umum31 Dalam kategori Pemanggilan alat2
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #85 | Kimi K2.5 medium | Moonshot AI | 5 | 6.7 | 9/20 | 89.0s |
| #102 | Nemotron 3 Super medium | NVIDIA | 5 | 5.9 | 8/20 | 20.9s |
| #11 | GPT-5.5 medium | OpenAI | 4 | 8.7 | 16/20 | 37.9s |
| #13 | Gemini 3 Flash Preview low | 4 | 8.6 | 16/20 | 5.81s | |
| #17 | GPT-5.3-Codex medium | OpenAI | 4 | 8.3 | 14/20 | 16.0s |
| #23 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 4 | 8.1 | 14/20 | 67.6s |
| #26 | Hy3 preview low | Tencent | 4 | 7.9 | 15/20 | 24.6s |
| #27 | Gemini 3.5 Flash minimal | 4 | 7.9 | 14/20 | 1.58s | |
| #31 | GLM 5 Turbo medium | Z.ai | 4 | 7.9 | 13/20 | 22.7s |
| #35 | Qwen3.6 35B A3B medium | Qwen | 4 | 7.8 | 14/20 | 17.3s |
| #36 | Grok 4.3 medium | X AI | 4 | 7.8 | 13/20 | 49.2s |
| #45 | Grok Build 0.1 medium | X AI | 4 | 7.7 | 13/20 | 42.4s |
| #56 | GLM 5.1 medium | Z.ai | 4 | 7.4 | 12/20 | 33.5s |
| #58 | MiMo-V2.5 medium | Xiaomi | 4 | 7.4 | 12/20 | 20.3s |
| #61 | Step 3.5 Flash medium | Stepfun | 4 | 7.4 | 11/19 | 43.2s |