Kegagalan AI BENCHY
Kegagalan Jawaban salah
Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.
Kategori
Dalam kategori Spesifik domain307 Dalam kategori Trik anti-AI236 Dalam kategori Pemecahan teka-teki142 Dalam kategori Pengetahuan umum127 Dalam kategori Pemrograman121 Dalam kategori Kepatuhan instruksi52 Dalam kategori Gabungan51 Dalam kategori Parsing dan ekstraksi data35 Dalam kategori Kecerdasan umum31 Dalam kategori Pemanggilan alat2
| Peringkat | Model | Perusahaan | Jumlah Jawaban salah | Skor | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #6 | Gemini 3.5 Flash medium | 2 | 9.0 | 17/20 | 4.29s | |
| #7 | Claude Opus 4.7 medium | Anthropic | 2 | 8.9 | 17/20 | 4.48s |
| #14 | Gemini 3.1 Flash Lite Preview high | 2 | 8.6 | 13/16 | 68.1s | |
| #25 | Gemma 4 31B medium | 2 | 8.0 | 14/20 | 35.4s | |
| #68 | Qwen3.5-35B-A3B medium | Qwen | 2 | 7.3 | 11/20 | 69.7s |
| #1 | Gemini 3 Flash Preview medium | 1 | 9.8 | 19/20 | 16.5s | |
| #2 | Gemini 3.5 Flash high | 1 | 9.6 | 19/20 | 8.30s | |
| #37 | Step 3.5 Flash none | Stepfun | 1 | 7.8 | 9/12 | 39.0s |