Kegagalan AI BENCHY
Kegagalan Jawaban salah
Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Spesifik domain307 Dalam kategori Trik anti-AI236 Dalam kategori Pemecahan teka-teki142 Dalam kategori Pengetahuan umum127 Dalam kategori Pemrograman121 Dalam kategori Kepatuhan instruksi52 Dalam kategori Gabungan51 Dalam kategori Parsing dan ekstraksi data35 Dalam kategori Kecerdasan umum31 Dalam kategori Pemanggilan alat2
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #66 | Laguna M.1 medium | Poolside | 4 | 7.3 | 13/19 | 14.7s |
| #75 | Seed-2.0-Mini medium | Bytedance Seed | 4 | 7.1 | 11/20 | 80.2s |
| #78 | Claude Sonnet 4.6 none | Anthropic | 4 | 7.0 | 11/20 | 5.27s |
| #82 | Hunter Alpha medium | OpenRouter | 4 | 6.7 | 8/18 | 10.3s |
| #89 | Grok 4.20 Multi Agent Beta medium | X AI | 4 | 6.6 | 8/18 | 9.69s |
| #93 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 23.8s |
| #5 | Qwen3.7 Max medium | Qwen | 3 | 9.0 | 17/20 | 13.8s |
| #8 | GPT-5.5 low | OpenAI | 3 | 8.9 | 17/20 | 9.43s |
| #9 | Gemini 3.5 Flash none | 3 | 8.9 | 17/20 | 9.05s | |
| #10 | Claude Opus 4.7 none | Anthropic | 3 | 8.9 | 16/19 | 3.02s |
| #12 | Claude Opus 4.8 medium | Anthropic | 3 | 8.7 | 16/20 | 9.34s |
| #15 | Grok 4.20 Beta medium | X AI | 3 | 8.5 | 14/18 | 9.75s |
| #18 | Hy3 preview high | Tencent | 3 | 8.3 | 16/20 | 56.6s |
| #19 | Qwen3.6 Plus Preview medium | Qwen | 3 | 8.2 | 16/19 | 15.2s |
| #20 | GLM 5 medium | Z.ai | 3 | 8.2 | 14/20 | 32.7s |