AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #56 | MiMo-V2.5 medium | Xiaomi | 9.9 | 7.3 | 2/2 | 1.80s |
| #59 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.2 | 2/2 | 3.74s |
| #68 | Claude Opus 4.8 none | Anthropic | 9.9 | 7.0 | 2/2 | 1.37s |
| #79 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #99 | gpt-oss-120b medium | OpenAI | 9.9 | 6.1 | 2/2 | 7.63s |
| #20 | Gemini 3.5 Flash none | 9.8 | 8.1 | 2/2 | 3.38s | |
| #38 | Grok 4.3 medium | X AI | 9.8 | 7.6 | 2/2 | 18.6s |
| #47 | Grok Build 0.1 medium | X AI | 9.8 | 7.4 | 2/2 | 12.4s |
| #67 | MiniMax M3 medium | Minimax | 9.8 | 7.1 | 2/2 | 6.14s |
| #70 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.0 | 2/2 | 1.88s |