AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #7 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.6 | 2/2 | 3.04s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 10.0 | 8.5 | 2/2 | 31.9s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 10.0 | 8.5 | 2/2 | 7.54s |
| #10 | Qwen3.5-27B medium | Qwen | 10.0 | 8.4 | 2/2 | 19.7s |
| #12 | Gemini 3 PRO Preview medium | 9.8 | 8.4 | 2/2 | 3.26s | |
| #13 | GLM 5 medium | Z.ai | 10.0 | 8.4 | 2/2 | 7.25s |
| #14 | Gemma 4 31B medium | 10.0 | 8.3 | 2/2 | 12.8s | |
| #15 | Gemini 2.5 Flash medium | 9.8 | 8.2 | 2/2 | 2.62s | |
| #16 | GPT-5.4 medium | OpenAI | 10.0 | 8.2 | 2/2 | 3.11s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 8.2 | 2/2 | 1.91s | |
| #18 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.1 | 2/2 | 5.38s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 10.0 | 8.1 | 2/2 | 9.88s |
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 2/2 | 7.54s |
| #22 | Gemini 3.1 Flash Lite Preview low | 10.0 | 8.1 | 2/2 | 1.49s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 9.9 | 8.1 | 2/2 | 3.36s |