Kegagalan AI BENCHY
Kegagalan Kesalahan API
Lihat model AI mana yang paling sering mengalami Kesalahan API, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Pemrograman43 Dalam kategori Parsing dan ekstraksi data16 Dalam kategori Pemanggilan alat15 Dalam kategori Gabungan13 Dalam kategori Pemecahan teka-teki13 Dalam kategori Trik anti-AI13 Dalam kategori Kecerdasan umum12 Dalam kategori Pengetahuan umum12 Dalam kategori Spesifik domain6 Dalam kategori Kepatuhan instruksi1
| Peringkat | Model | Perusahaan | Jumlah Kesalahan API | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #132 | Mistral Small 4 medium | Mistral | 2 | 5.3 | 5/21 | 9.40s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #151 | Trinity Large Preview none | Arcee AI | 2 | 4.6 | 4/21 | 2.98s |
| #153 | Qwen3.6 35B A3B none | Qwen | 2 | 4.6 | 4/21 | 3.73s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 7.9 | 14/21 | 73.8s |
| #26 | Qwen3.6 Plus medium | Qwen | 1 | 7.9 | 14/21 | 30.7s |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 1 | 7.5 | 13/21 | 15.1s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 1 | 7.5 | 12/21 | 26.1s |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 7.4 | 12/21 | 63.3s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 7.4 | 12/21 | 22.2s |
| #55 | GLM 5.1 medium | Z.ai | 1 | 7.3 | 12/21 | 33.7s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.2 | 12/21 | 20.1s |
| #66 | Qwen3.5-35B-A3B medium | Qwen | 1 | 7.1 | 11/21 | 72.6s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 6.7 | 8/18 | 10.3s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 6.7 | 10/21 | 41.2s |