AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #57 | GPT-5 Nano medium | OpenAI | 8.5 | 6.3 | 1/2 | 11.9s |
| #84 | gpt-oss-120b none | OpenAI | 8.4 | 5.2 | 1/2 | 5.10s |
| #25 | Grok 4.20 Beta medium | X AI | 8.3 | 8.0 | 1/2 | 4.97s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 8.3 | 7.7 | 1/2 | 4.92s |
| #36 | GPT-5.3 Chat none | OpenAI | 8.3 | 7.7 | 1/2 | 3.29s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 8.3 | 6.4 | 1/2 | 4.63s |
| #75 | GLM 5.1 none | Z.ai | 8.3 | 5.6 | 1/2 | 1.58s |
| #71 | MiniMax M2.5 medium | Minimax | 8.1 | 5.7 | 1/2 | 4.64s |
| #45 | GPT-5 Mini medium | OpenAI | 8.0 | 7.0 | 1/2 | 15.7s |
| #62 | Gemini 2.5 Flash none | 8.0 | 6.2 | 1/2 | 672ms | |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.9 | 8.4 | 1/2 | 70.1s | |
| #28 | GPT-5.2 Chat none | OpenAI | 7.5 | 7.9 | 1/2 | 5.46s |
| #44 | GPT-5.4 Mini medium | OpenAI | 7.4 | 7.3 | 1/2 | 2.50s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.38s |
| #47 | Grok 4.20 medium | X AI | 7.3 | 7.0 | 1/2 | 4.42s |