AI BENCHY विफलताएँ
निर्देशों का पालन नहीं किया विफलताएँ
देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: कुल लागत ↑.
121/121
मॉडल फ़िल्टर करें
मौजूदा खोज और फ़िल्टर से कोई मॉडल मेल नहीं खाता।
| रैंक | मॉडल | कंपनी | निर्देशों का पालन नहीं किया संख्या | स्कोर | कुल लागत | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|---|
| #108 | Owl Alpha medium | Openrouter | 2 | 5.8 | $0.000 | 8/21 | 11.9s |
| #110 | Owl Alpha none | Openrouter | 3 | 5.8 | $0.000 | 7/21 | 9.88s |
| #131 | North Mini Code none | Cohere | 2 | 5.1 | $0.000 | 4/21 | 29.8s |
| #132 | Hunter Alpha medium | OpenRouter | 2 | 5.1 | $0.000 | 8/18 | 10.3s |
| #138 | Laguna M.1 medium | Poolside | 1 | 5.0 | $0.000 | 9/19 | 14.7s |
| #140 | Cobuddy medium | Baidu | 3 | 4.9 | $0.000 | 7/21 | 39.9s |
| #152 | Elephant Alpha none | Openrouter | 3 | 4.6 | $0.000 | 5/21 | 1.22s |
| #153 | Elephant Alpha medium | Openrouter | 2 | 4.5 | $0.000 | 6/21 | 1.27s |
| #154 | Hunter Alpha none | OpenRouter | 2 | 4.5 | $0.000 | 6/18 | 4.70s |
| #162 | Laguna Xs.2 none | Poolside | 1 | 4.0 | $0.000 | 5/19 | 806ms |
| #166 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 1 | 3.6 | $0.000 | 4/19 | 17.1s |
| #167 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 2 | 3.5 | $0.000 | 2/19 | 728ms |
| #169 | LFM2-24B-A2B none | Liquid | 1 | 2.4 | $0.001 | 2/16 | 782ms |
| #143 | Ling-2.6-flash none | Inclusionai | 2 | 4.9 | $0.001 | 6/21 | 9.34s |
| #158 | Hy3 preview none | Tencent | 4 | 4.3 | $0.003 | 4/21 | 12.9s |