Kegagalan AI BENCHY
Kegagalan Jawaban salah
Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Spesifik domain182 Dalam kategori Trik anti-AI165 Dalam kategori Pemecahan teka-teki85 Dalam kategori Kepatuhan instruksi44 Dalam kategori Gabungan37 Dalam kategori Pemrograman28 Dalam kategori Parsing dan ekstraksi data19 Dalam kategori Kecerdasan umum10 Dalam kategori Pemanggilan alat2
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #36 | GPT-5.3 Chat none | OpenAI | 5 | 7.7 | 11/18 | 5.88s |
| #48 | Gemma 4 31B none | 5 | 6.9 | 10/18 | 4.02s | |
| #71 | MiniMax M2.5 medium | Minimax | 5 | 5.7 | 5/18 | 39.6s |
| #80 | MiniMax M2.7 medium | Minimax | 5 | 5.3 | 4/18 | 31.1s |
| #15 | Gemini 2.5 Flash medium | 4 | 8.2 | 13/18 | 12.1s | |
| #17 | Gemini 3.1 Flash Lite Preview medium | 4 | 8.2 | 13/18 | 3.74s | |
| #22 | Gemini 3.1 Flash Lite Preview low | 4 | 8.1 | 13/18 | 3.22s | |
| #29 | Gemini 3.1 Flash Lite Preview none | 4 | 7.9 | 12/18 | 1.30s | |
| #38 | GPT-5.4 Nano medium | OpenAI | 4 | 7.6 | 11/18 | 11.2s |
| #44 | GPT-5.4 Mini medium | OpenAI | 4 | 7.3 | 9/18 | 15.2s |
| #45 | GPT-5 Mini medium | OpenAI | 4 | 7.0 | 9/18 | 24.0s |
| #46 | Kimi K2.5 medium | Moonshot AI | 4 | 7.0 | 9/18 | 72.4s |
| #50 | Hunter Alpha medium | OpenRouter | 4 | 6.7 | 8/18 | 10.3s |
| #5 | Gemini 3 Flash Preview low | 3 | 8.8 | 15/18 | 6.01s | |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 3 | 8.6 | 13/18 | 30.4s |