AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #148 | GPT-5.4 Nano none | OpenAI | 6.3 | 4.7 | 1/2 | 784ms |
| #150 | Qwen3 Coder Next medium | Qwen | 6.3 | 4.6 | 1/2 | 7.49s |
| #160 | LFM2-24B-A2B none | Liquid | 6.3 | 4.2 | 1/2 | 752ms |
| #118 | Qwen3.6 27B none | Qwen | 6.2 | 5.6 | 1/2 | 1.92s |
| #91 | GPT-5.5 none | OpenAI | 6.2 | 6.4 | 1/2 | 1.15s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 6.2 | 5.7 | 1/2 | 1.17s |
| #153 | Qwen3.6 35B A3B none | Qwen | 6.2 | 4.6 | 1/2 | 1.86s |
| #158 | GLM 4.7 Flash medium | Z.ai | 6.2 | 4.4 | 1/2 | 2.97s |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 4.8 | 4.1 | 0/2 | 541ms |
| #130 | MiniMax M2.7 medium | Minimax | 3.8 | 5.3 | 0/2 | 12.8s |
| #163 | Granite 4.1 8B none | IBM Granite | 3.6 | 4.0 | 0/2 | 344ms |
| #151 | Trinity Large Preview none | Arcee AI | 3.5 | 4.6 | 0/2 | 822ms |
| #157 | Grok 4.1 Fast none | X AI | 3.0 | 4.4 | 0/2 | 685ms |