AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #94 | MiniMax M2.7 medium | Minimax | 6 | 5.3 | 4/18 | 31.1s |
| #95 | Elephant Alpha medium | Openrouter | 3 | 5.2 | 5/18 | 1.27s |
| #96 | Grok 4.20 none | X AI | 2 | 5.2 | 5/18 | 1.11s |
| #97 | Mistral Small 4 none | Mistral | 2 | 5.2 | 5/18 | 665ms |
| #98 | gpt-oss-120b none | OpenAI | 5 | 5.2 | 4/18 | 12.0s |
| #99 | Elephant Alpha none | Openrouter | 3 | 5.2 | 5/18 | 1.23s |
| #100 | GPT-5.4 Mini none | OpenAI | 3 | 5.1 | 5/18 | 1.17s |
| #101 | Qwen3 Coder Next none | Qwen | 1 | 5.1 | 4/18 | 10.2s |
| #102 | MiMo-V2.5 none | Xiaomi | 2 | 5.1 | 5/18 | 1.05s |
| #103 | Nemotron 3 Super none | NVIDIA | 4 | 5.1 | 4/18 | 8.54s |
| #104 | GPT-4o-mini none | OpenAI | 1 | 4.9 | 4/18 | 2.00s |
| #105 | Qwen3.5-9B none | Qwen | 3 | 4.8 | 4/18 | 1.47s |
| #106 | Mercury 2 none | Inception | 1 | 4.8 | 4/18 | 613ms |
| #107 | Qwen3 Coder Next medium | Qwen | 5 | 4.7 | 3/18 | 10.8s |
| #108 | HY3 Preview none | Tencent | 4 | 4.7 | 4/18 | 13.6s |