AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #54 | Mercury 2 medium | Inception | 10.0 | 6.5 | 2/2 | 1.07s |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 6.2 | 2/2 | 1.06s |
| #64 | DeepSeek V3.2 none | DeepSeek | 10.0 | 6.1 | 2/2 | 1.52s |
| #5 | Gemini 3 Flash Preview low | 9.9 | 8.8 | 2/2 | 7.02s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 9.9 | 8.1 | 2/2 | 3.36s |
| #31 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.8 | 2/2 | 3.74s |
| #40 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #50 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #68 | gpt-oss-120b medium | OpenAI | 9.9 | 5.8 | 2/2 | 7.63s |
| #38 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.6 | 2/2 | 1.88s |
| #81 | Elephant medium | Openrouter | 9.8 | 5.2 | 2/2 | 987ms |
| #85 | Elephant none | Openrouter | 9.8 | 5.2 | 2/2 | 1.03s |
| #12 | Gemini 3 PRO Preview medium | 9.8 | 8.4 | 2/2 | 3.26s | |
| #15 | Gemini 2.5 Flash medium | 9.8 | 8.2 | 2/2 | 2.62s | |
| #30 | Step 3.5 Flash medium | Stepfun | 8.5 | 7.9 | 1/2 | 4.98s |