AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #12 | Gemini 3.1 Flash Lite Preview high | 9.8 | 8.6 | 2/2 | 64.0s | |
| #13 | Grok 4.20 Beta medium | X AI | 9.8 | 8.5 | 2/2 | 4.89s |
| #14 | Qwen3.6 Max Preview medium | Qwen | 10.0 | 8.5 | 2/2 | 24.3s |
| #15 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.4 | 2/2 | 3.04s |
| #16 | Gemini 3 Flash Preview low | 9.9 | 8.4 | 2/2 | 7.02s | |
| #17 | GLM 5 medium | Z.ai | 10.0 | 8.3 | 2/2 | 7.25s |
| #18 | Qwen3.7 Plus medium | Qwen | 10.0 | 8.2 | 2/2 | 16.1s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 10.0 | 8.2 | 2/2 | 7.26s |
| #20 | Gemini 3.5 Flash none | 9.8 | 8.1 | 2/2 | 3.38s | |
| #21 | GPT-5.4 medium | OpenAI | 10.0 | 8.0 | 2/2 | 3.11s |
| #22 | Step 3.7 Flash medium | Stepfun | 9.8 | 8.0 | 2/2 | 1.83s |
| #23 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.0 | 2/2 | 5.38s |
| #24 | GPT-5.2 Chat none | OpenAI | 9.8 | 7.9 | 2/2 | 5.51s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 10.0 | 7.9 | 2/2 | 31.9s |
| #26 | Qwen3.6 Plus medium | Qwen | 10.0 | 7.9 | 2/2 | 7.54s |