AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↓.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 4 | 4.0 | $0.003 | 2/21 | 728ms |
| #158 | Hy3 preview none | Tencent | 4 | 4.3 | $0.003 | 4/21 | 12.9s |
| #143 | Ling-2.6-flash none | Inclusionai | 2 | 4.9 | $0.001 | 6/21 | 9.34s |
| #169 | LFM2-24B-A2B none | Liquid | 1 | 2.4 | $0.001 | 2/16 | 782ms |
| #108 | Owl Alpha medium | Openrouter | 2 | 5.8 | $0.000 | 8/21 | 11.9s |
| #110 | Owl Alpha none | Openrouter | 3 | 5.8 | $0.000 | 7/21 | 9.88s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #132 | Hunter Alpha medium | OpenRouter | 2 | 5.1 | $0.000 | 8/18 | 10.3s |
| #138 | Laguna M.1 medium | Poolside | 1 | 5.0 | $0.000 | 9/19 | 14.7s |
| #140 | Cobuddy medium | Baidu | 3 | 4.9 | $0.000 | 7/21 | 39.9s |
| #152 | Elephant Alpha none | Openrouter | 3 | 4.6 | $0.000 | 5/21 | 1.22s |
| #153 | Elephant Alpha medium | Openrouter | 2 | 4.5 | $0.000 | 6/21 | 1.27s |
| #154 | Hunter Alpha none | OpenRouter | 2 | 4.5 | $0.000 | 6/18 | 4.70s |
| #162 | Laguna Xs.2 none | Poolside | 1 | 4.0 | $0.000 | 5/19 | 806ms |
| #166 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 3.6 | $0.000 | 4/19 | 17.1s |