AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 8.3 | 6.4 | 1/2 | 4.63s |
| #57 | GPT-5 Nano medium | OpenAI | 8.5 | 6.3 | 1/2 | 11.9s |
| #58 | GLM 5V Turbo none | Z.ai | 6.5 | 6.2 | 1/2 | 1.97s |
| #59 | Qwen3.5-Flash none | Qwen | 6.3 | 6.2 | 1/2 | 8.81s |
| #62 | Gemini 2.5 Flash none | 8.0 | 6.2 | 1/2 | 672ms | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 6.3 | 6.1 | 1/2 | 809ms |
| #65 | MiMo-V2-Pro none | Xiaomi | 6.5 | 6.0 | 1/2 | 2.51s |
| #66 | GPT-5.4 none | OpenAI | 6.5 | 5.9 | 1/2 | 1.07s |
| #69 | Kimi K2.6 none | Moonshot AI | 6.5 | 5.8 | 1/2 | 1.64s |
| #71 | MiniMax M2.5 medium | Minimax | 8.1 | 5.7 | 1/2 | 4.64s |
| #72 | Hunter Alpha none | OpenRouter | 6.4 | 5.7 | 1/2 | 2.82s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.38s |
| #74 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.6 | 1/2 | 888ms |
| #75 | GLM 5.1 none | Z.ai | 8.3 | 5.6 | 1/2 | 1.58s |
| #76 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.5 | 1/2 | 2.67s |