AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #31 | DeepSeek V4 Flash high | DeepSeek | 10.0 | 7.7 | 2/2 | 15.4s |
| #33 | Hy3 preview medium | Tencent | 10.0 | 7.7 | 2/2 | 6.16s |
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 2/2 | 943ms |
| #35 | Gemini 3 PRO Preview medium | 9.8 | 7.6 | 2/2 | 3.26s | |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 10.0 | 7.6 | 2/2 | 20.2s |
| #37 | Gemma 4 26B A4B medium | 10.0 | 7.6 | 2/2 | 17.5s | |
| #38 | Grok 4.3 medium | X AI | 9.8 | 7.6 | 2/2 | 18.6s |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 2/2 | 6.05s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 2/2 | 1.91s | |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 9.8 | 7.5 | 2/2 | 6.35s |
| #42 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 9.9 | 7.5 | 2/2 | 2.77s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #45 | GPT-5.4 Mini medium | OpenAI | 9.8 | 7.5 | 2/2 | 2.13s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 10.0 | 7.4 | 2/2 | 7.50s |