AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #132 | Mistral Small 4 medium | Mistral | 7.3 | 5.3 | 1/2 | 1.38s |
| #129 | MiniMax M2.5 medium | Minimax | 7.5 | 5.3 | 1/2 | 621ms |
| #62 | Step 3.5 Flash medium | Stepfun | 8.3 | 7.2 | 1/2 | 4.78s |
| #80 | Mimo V2 Omni medium | Xiaomi | 8.3 | 6.7 | 1/2 | 4.99s |
| #12 | Gemini 3.1 Flash Lite Preview high | 9.8 | 8.6 | 2/2 | 64.0s | |
| #13 | Grok 4.20 Beta medium | X AI | 9.8 | 8.5 | 2/2 | 4.89s |
| #22 | Step 3.7 Flash medium | Stepfun | 9.8 | 8.0 | 2/2 | 1.83s |
| #24 | GPT-5.2 Chat none | OpenAI | 9.8 | 7.9 | 2/2 | 5.51s |
| #28 | Gemini 2.5 Flash medium | 9.8 | 7.8 | 2/2 | 2.62s | |
| #35 | Gemini 3 PRO Preview medium | 9.8 | 7.6 | 2/2 | 3.26s | |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 9.8 | 7.5 | 2/2 | 6.35s |
| #45 | GPT-5.4 Mini medium | OpenAI | 9.8 | 7.5 | 2/2 | 2.13s |
| #57 | Step 3.7 Flash low | Stepfun | 9.8 | 7.3 | 2/2 | 1.58s |
| #63 | GPT-5.3 Chat none | OpenAI | 9.8 | 7.2 | 2/2 | 3.51s |
| #65 | Grok 4.20 medium | X AI | 9.8 | 7.1 | 2/2 | 4.26s |