AI BENCHY
Advertise here

Kegagalan AI BENCHY

Kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

15

Total kegagalan

215

Model yang paling terdampak

Kimi K2.5 2
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor Tes benar Waktu respons (rata-rata)
#76 Kimi K2.5 medium Moonshot AI 2 6.8 10/21 98.4s
#161 Qwen3.5-9B medium Qwen 1 4.2 3/21 82.2s
#73 Seed-2.0-Mini medium Bytedance Seed 1 6.9 11/21 80.2s
#62 Step 3.5 Flash medium Stepfun 3 7.2 11/20 72.5s
#60 Kimi K2.6 medium Moonshot AI 2 7.2 12/21 71.7s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 11/21 68.7s
#30 Qwen3.5-27B medium Qwen 2 7.8 13/21 68.4s
#67 MiniMax M3 medium Minimax 2 7.1 11/21 68.2s
#12 Gemini 3.1 Flash Lite Preview high Google 1 8.6 13/16 68.1s
#129 MiniMax M2.5 medium Minimax 3 5.3 5/21 65.4s
#103 DeepSeek V4 Pro high DeepSeek 1 6.0 8/21 65.2s
#49 Qwen3.5-Flash medium Qwen 1 7.4 12/21 63.3s
#53 Gemini 3.1 Flash Lite high Google 3 7.3 10/18 62.0s
#75 Ring-2.6-1T medium Inclusionai 2 6.9 11/21 61.3s
#78 Qwen3.6 27B medium Qwen 1 6.8 10/21 59.7s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)