AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #76 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.5 | 1/2 | 2.67s |
| #77 | GLM 5 Turbo none | Z.ai | 6.5 | 5.5 | 1/2 | 2.13s |
| #83 | Mistral Small 4 none | Mistral | 6.5 | 5.2 | 1/2 | 380ms |
| #90 | Qwen3.5-9B none | Qwen | 6.5 | 4.8 | 1/2 | 514ms |
| #91 | Mercury 2 none | Inception | 6.5 | 4.8 | 1/2 | 551ms |
| #94 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.5 | 1/2 | 857ms |
| #52 | Grok 4.1 Fast medium | X AI | 6.6 | 6.7 | 1/2 | 5.30s |
| #51 | Nemotron 3 Super medium | NVIDIA | 7.2 | 6.7 | 1/2 | 7.72s |
| #47 | Grok 4.20 medium | X AI | 7.3 | 7.0 | 1/2 | 4.42s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.38s |
| #44 | GPT-5.4 Mini medium | OpenAI | 7.4 | 7.3 | 1/2 | 2.50s |
| #28 | GPT-5.2 Chat none | OpenAI | 7.5 | 7.9 | 1/2 | 5.46s |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.9 | 8.4 | 1/2 | 70.1s | |
| #62 | Gemini 2.5 Flash none | 8.0 | 6.2 | 1/2 | 672ms | |
| #45 | GPT-5 Mini medium | OpenAI | 8.0 | 7.0 | 1/2 | 15.7s |