AI BENCHY
Advertise here

Kegagalan AI BENCHY

Kegagalan Tidak mengikuti instruksi

Lihat model AI mana yang paling sering mengalami Tidak mengikuti instruksi, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

10

Total kegagalan

225

Model yang paling terdampak

MiniMax M2.7 5
Peringkat Model Perusahaan Jumlah Tidak mengikuti instruksi Skor Tes benar Waktu respons (rata-rata)
#117 Grok 4.20 Beta none X AI 1 5.5 5/18 1.19s
#118 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 5.4 10/19 17.1s
#127 Laguna Xs.2 none Poolside 1 5.3 9/19 806ms
#131 DeepSeek V4 Flash none DeepSeek 1 5.1 5/20 27.9s
#132 Qwen3 Coder Next none Qwen 1 5.1 5/20 8.83s
#135 Mistral Small 4 none Mistral 1 5.0 5/20 658ms
#138 GPT-4o-mini none OpenAI 1 4.9 5/20 1.87s
#143 Mercury 2 none Inception 1 4.6 4/20 614ms
#145 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.6 8/19 726ms
#151 Qwen3.5-9B medium Qwen 1 4.2 3/20 80.1s

Model teratas menurut Jumlah Tidak mengikuti instruksi

Jumlah Tidak mengikuti instruksi vs Skor

Model teratas menurut Waktu respons (rata-rata)