AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #94 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.5 | 1/2 | 857ms |
| #21 | Gemini 3 Flash Preview none | 6.4 | 8.1 | 1/2 | 1.58s | |
| #33 | GLM 5.1 medium | Z.ai | 6.4 | 7.8 | 1/2 | 7.47s |
| #97 | Qwen3.5-9B medium | Qwen | 6.4 | 4.4 | 1/2 | 17.1s |
| #72 | Hunter Alpha none | OpenRouter | 6.4 | 5.7 | 1/2 | 2.82s |
| #59 | Qwen3.5-Flash none | Qwen | 6.3 | 6.2 | 1/2 | 8.81s |
| #63 | Qwen3.5-35B-A3B none | Qwen | 6.3 | 6.1 | 1/2 | 809ms |
| #86 | GPT-5.4 Mini none | OpenAI | 6.3 | 5.1 | 1/2 | 728ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 6.2 | 4.6 | 1/2 | 2.97s |
| #96 | GPT-5.4 Nano none | OpenAI | 5.0 | 4.5 | 0/2 | 787ms |
| #88 | Nemotron 3 Super none | NVIDIA | 4.9 | 5.1 | 0/2 | 1.50s |
| #67 | Qwen3.5-27B none | Qwen | 4.8 | 5.9 | 0/2 | 815ms |
| #79 | Grok 4.20 Beta none | X AI | 4.8 | 5.3 | 0/2 | 687ms |
| #82 | Grok 4.20 none | X AI | 4.8 | 5.2 | 0/2 | 455ms |
| #87 | Qwen3 Coder Next none | Qwen | 4.8 | 5.1 | 0/2 | 7.71s |