Kegagalan kategori AI BENCHY
Kecerdasan umum: Tidak mengikuti instruksi
Kecerdasan umum
Tidak mengikuti instruksi
Lihat model AI mana yang paling mungkin mengalami Tidak mengikuti instruksi di Kecerdasan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.
Alasan kegagalan
| Peringkat | Model | Perusahaan | Jumlah Tidak mengikuti instruksi | Skor kategori | Tes benar | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|
| #50 | Gemini 3.1 Flash Lite Preview low | 1 | 4.0 | 0/1 | 1.54s | |
| #53 | Gemini 3.1 Flash Lite high | 1 | 5.0 | 0/1 | 45.7s | |
| #54 | GPT-5 Mini medium | OpenAI | 1 | 4.5 | 0/1 | 13.5s |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.4 | 0/1 | 5.37s |
| #58 | Gemini 3.1 Flash Lite Preview none | 1 | 4.0 | 0/1 | 741ms | |
| #62 | Step 3.5 Flash medium | Stepfun | 1 | 5.5 | 0/1 | 22.4s |
| #63 | GPT-5.3 Chat none | OpenAI | 1 | 4.6 | 0/1 | 1.99s |
| #64 | MiMo-V2-Flash medium | Xiaomi | 1 | 4.0 | 0/1 | 4.20s |
| #65 | Grok 4.20 medium | X AI | 1 | 3.9 | 0/1 | 24.5s |
| #67 | MiniMax M3 medium | Minimax | 1 | 5.1 | 0/1 | 33.3s |
| #70 | GPT-5.4 Nano medium | OpenAI | 1 | 4.5 | 0/1 | 4.15s |
| #73 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 5.1 | 0/1 | 36.7s |
| #75 | Ring-2.6-1T medium | Inclusionai | 1 | 4.1 | 0/1 | 58.3s |
| #76 | Kimi K2.5 medium | Moonshot AI | 1 | 6.5 | 0/1 | 69.7s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 1 | 6.1 | 0/1 | 2.56s |