AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #135 | Kimi K2.5 none | Moonshot AI | 6.5 | 5.2 | 1/2 | 2.67s |
| #7 | Gemini 3.5 Flash medium | 9.9 | 9.0 | 2/2 | 2.70s | |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #116 | Hunter Alpha none | OpenRouter | 6.4 | 5.7 | 1/2 | 2.82s |
| #85 | Gemma 4 31B none | 6.5 | 6.5 | 1/2 | 2.84s | |
| #158 | GLM 4.7 Flash medium | Z.ai | 6.2 | 4.4 | 1/2 | 2.97s |
| #15 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.4 | 2/2 | 3.04s |
| #21 | GPT-5.4 medium | OpenAI | 10.0 | 8.0 | 2/2 | 3.11s |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #35 | Gemini 3 PRO Preview medium | 9.8 | 7.6 | 2/2 | 3.26s | |
| #10 | Claude Opus 4.8 medium | Anthropic | 10.0 | 8.7 | 2/2 | 3.32s |
| #2 | Gemini 3.5 Flash high | 10.0 | 9.6 | 2/2 | 3.35s | |
| #51 | Mimo V2 PRO medium | Xiaomi | 9.9 | 7.4 | 2/2 | 3.36s |
| #9 | GPT-5.5 medium | OpenAI | 10.0 | 8.8 | 2/2 | 3.36s |
| #20 | Gemini 3.5 Flash none | 9.8 | 8.1 | 2/2 | 3.38s |