Kegagalan AI BENCHY
Kegagalan Jawaban salah
Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Spesifik domain288 Dalam kategori Trik anti-AI230 Dalam kategori Pemecahan teka-teki145 Dalam kategori Pengetahuan umum119 Dalam kategori Kepatuhan instruksi51 Dalam kategori Gabungan50 Dalam kategori Pemrograman41 Dalam kategori Parsing dan ekstraksi data31 Dalam kategori Kecerdasan umum26 Dalam kategori Pemanggilan alat2
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #133 | Mercury 2 none | Inception | 14 | 4.7 | 4/19 | 610ms |
| #137 | GPT-5.4 Nano none | OpenAI | 14 | 4.5 | 3/19 | 1.36s |
| #114 | Kimi K2.5 none | Moonshot AI | 13 | 5.4 | 6/19 | 12.6s |
| #126 | Mistral Small 4 none | Mistral | 13 | 5.1 | 5/19 | 651ms |
| #129 | GPT-4o-mini none | OpenAI | 13 | 4.9 | 5/19 | 1.90s |
| #139 | MiMo-V2-Flash none | Xiaomi | 13 | 4.5 | 3/19 | 2.73s |
| #141 | Grok 4.1 Fast none | X AI | 13 | 4.4 | 3/19 | 1.67s |
| #123 | Qwen3 Coder Next none | Qwen | 12 | 5.2 | 5/19 | 9.44s |
| #124 | Nemotron 3 Super none | NVIDIA | 12 | 5.2 | 5/19 | 5.80s |
| #130 | MiMo-V2.5 none | Xiaomi | 12 | 4.9 | 4/19 | 2.02s |
| #132 | Trinity Large Preview none | Arcee AI | 12 | 4.8 | 4/19 | 3.03s |
| #134 | Qwen3.5-9B none | Qwen | 12 | 4.7 | 4/19 | 1.51s |
| #140 | Ling-2.6-1T none | Inclusionai | 12 | 4.5 | 4/19 | 8.79s |
| #144 | Granite 4.1 8B none | IBM Granite | 12 | 4.1 | 2/19 | 743ms |
| #88 | Seed-2.0-Lite none | Bytedance Seed | 11 | 6.0 | 8/19 | 2.50s |