AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #100 | GPT-5.4 Mini none | OpenAI | 3 | 5.1 | 5/18 | 1.17s |
| #99 | Elephant Alpha none | Openrouter | 3 | 5.2 | 5/18 | 1.23s |
| #98 | gpt-oss-120b none | OpenAI | 5 | 5.2 | 4/18 | 12.0s |
| #97 | Mistral Small 4 none | Mistral | 2 | 5.2 | 5/18 | 665ms |
| #96 | Grok 4.20 none | X AI | 2 | 5.2 | 5/18 | 1.11s |
| #95 | Elephant Alpha medium | Openrouter | 3 | 5.2 | 5/18 | 1.27s |
| #94 | MiniMax M2.7 medium | Minimax | 6 | 5.3 | 4/18 | 31.1s |
| #93 | Grok 4.20 Beta none | X AI | 3 | 5.3 | 4/18 | 1.19s |
| #92 | DeepSeek V4 Flash none | DeepSeek | 2 | 5.3 | 5/18 | 29.4s |
| #91 | Trinity Large Preview none | Arcee AI | 2 | 5.3 | 5/18 | 5.07s |
| #90 | Ling 2.6 Flash none | Inclusionai | 3 | 5.4 | 6/18 | 11.3s |
| #89 | GLM 5 Turbo none | Z.ai | 2 | 5.5 | 6/18 | 2.94s |
| #86 | GLM 4.7 Flash none | Z.ai | 2 | 5.6 | 5/18 | 3.35s |
| #87 | GLM 5.1 none | Z.ai | 2 | 5.6 | 5/18 | 4.33s |
| #85 | Mistral Small 4 medium | Mistral | 3 | 5.7 | 5/18 | 5.64s |