AI BENCHY अपयशे
सूचनांचे पालन केले नाही अपयशे
कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.
| क्रमांक | मॉडेल | कंपनी | सूचनांचे पालन केले नाही संख्या | स्कोअर | बरोबर चाचण्या | प्रतिसाद वेळ (सरासरी) |
|---|---|---|---|---|---|---|
| #125 | MiniMax M2.7 medium | Minimax | 5 | 5.1 | 4/19 | 30.6s |
| #62 | GPT-5.4 Mini medium | OpenAI | 4 | 7.2 | 10/19 | 16.0s |
| #69 | GPT-5 Mini medium | OpenAI | 4 | 6.8 | 9/19 | 23.2s |
| #79 | Grok 4.1 Fast medium | X AI | 4 | 6.5 | 9/19 | 24.0s |
| #101 | gpt-oss-120b medium | OpenAI | 4 | 5.7 | 7/19 | 16.9s |
| #135 | Hy3 preview none | Tencent | 4 | 4.6 | 4/19 | 13.0s |
| #144 | Granite 4.1 8B none | IBM Granite | 4 | 4.1 | 2/19 | 743ms |
| #43 | Step 3.5 Flash medium | Stepfun | 3 | 7.6 | 11/18 | 41.7s |
| #51 | Gemini 3.1 Flash Lite high | 3 | 7.5 | 11/18 | 62.0s | |
| #60 | GPT-5.2 medium | OpenAI | 3 | 7.2 | 11/19 | 15.2s |
| #70 | Gemini 3.1 Flash Lite minimal | 3 | 6.8 | 10/19 | 1.41s | |
| #82 | Mercury 2 medium | Inception | 3 | 6.3 | 8/19 | 2.23s |
| #87 | Nemotron 3 Super medium | NVIDIA | 3 | 6.1 | 8/19 | 18.7s |
| #97 | Cobuddy medium | Baidu | 3 | 5.8 | 7/19 | 36.5s |
| #98 | Owl Alpha none | Openrouter | 3 | 5.8 | 7/19 | 6.83s |