AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #87 | Gemini 3.1 Flash Lite minimal | 3 | 6.4 | 10/21 | 1.33s | |
| #136 | Elephant Alpha medium | Openrouter | 2 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 3 | 5.1 | 5/21 | 1.22s |
| #58 | Gemini 3.1 Flash Lite Preview none | 2 | 7.2 | 12/21 | 1.21s | |
| #106 | Grok 4.20 Beta none | X AI | 1 | 5.8 | 6/18 | 1.19s |
| #144 | GPT-5.4 Mini none | OpenAI | 3 | 4.9 | 5/21 | 1.13s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 6.4 | 9/21 | 1.06s | |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #160 | LFM2-24B-A2B none | Liquid | 1 | 4.2 | 2/16 | 782ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 4.1 | 2/19 | 728ms |
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | 2/21 | 728ms |
| #155 | Mercury 2 none | Inception | 1 | 4.5 | 4/21 | 653ms |
| #142 | Mistral Small 4 none | Mistral | 1 | 4.9 | 5/21 | 630ms |