AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #134 | GLM 5 Turbo none | Z.ai | 6.5 | 5.2 | 1/2 | 2.13s |
| #135 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.2 | 1/2 | 2.67s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 6.5 | 5.0 | 1/2 | 17.5s |
| #140 | Qwen3 Coder Next none | Qwen | 6.3 | 4.9 | 1/2 | 7.78s |
| #141 | Nemotron 3 Super none | NVIDIA | 6.3 | 4.9 | 1/2 | 804ms |
| #142 | Mistral Small 4 none | Mistral | 6.5 | 4.9 | 1/2 | 380ms |
| #143 | MiMo-V2.5 none | Xiaomi | 6.5 | 4.9 | 1/2 | 751ms |
| #144 | GPT-5.4 Mini none | OpenAI | 6.3 | 4.9 | 1/2 | 728ms |
| #145 | Laguna M.1 none | Poolside | 6.3 | 4.8 | 1/2 | 683ms |
| #146 | Laguna Xs.2 none | Poolside | 6.5 | 4.8 | 1/2 | 439ms |
| #147 | GPT-4o-mini none | OpenAI | 6.3 | 4.8 | 1/2 | 1.11s |
| #148 | GPT-5.4 Nano none | OpenAI | 6.3 | 4.7 | 1/2 | 784ms |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 7.3 | 4.6 | 1/2 | 1.37s |
| #150 | Qwen3 Coder Next medium | Qwen | 6.3 | 4.6 | 1/2 | 7.49s |
| #152 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.6 | 1/2 | 857ms |