AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #130 | MiniMax M2.7 medium | Minimax | 3.8 | 5.3 | 0/2 | 12.8s |
| #151 | Trinity Large Preview none | Arcee AI | 3.5 | 4.6 | 0/2 | 822ms |
| #157 | Grok 4.1 Fast none | X AI | 3.0 | 4.4 | 0/2 | 685ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 4.8 | 4.1 | 0/2 | 541ms |
| #163 | Granite 4.1 8B none | IBM Granite | 3.6 | 4.0 | 0/2 | 344ms |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #48 | Gemini 3 Flash Preview none | 6.4 | 7.4 | 1/2 | 1.58s | |
| #53 | Gemini 3.1 Flash Lite high | 7.3 | 7.3 | 1/2 | 23.3s | |
| #55 | GLM 5.1 medium | Z.ai | 6.4 | 7.3 | 1/2 | 7.47s |
| #62 | Step 3.5 Flash medium | Stepfun | 8.3 | 7.2 | 1/2 | 4.78s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 6.5 | 6.8 | 1/2 | 1.96s |
| #80 | Mimo V2 Omni medium | Xiaomi | 8.3 | 6.7 | 1/2 | 4.99s |
| #85 | Gemma 4 31B none | 6.5 | 6.5 | 1/2 | 2.84s | |
| #86 | Grok 4.1 Fast medium | X AI | 6.5 | 6.5 | 1/2 | 4.63s |
| #88 | Qwen3.7 Plus none | Qwen | 6.3 | 6.4 | 1/2 | 929ms |