AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #143 | MiMo-V2.5 none | Xiaomi | 6.5 | 4.9 | 1/2 | 751ms |
| #160 | LFM2-24B-A2B none | Liquid | 6.3 | 4.2 | 1/2 | 752ms |
| #148 | GPT-5.4 Nano none | OpenAI | 6.3 | 4.7 | 1/2 | 784ms |
| #141 | Nemotron 3 Super none | NVIDIA | 6.3 | 4.9 | 1/2 | 804ms |
| #117 | Qwen3.5-35B-A3B none | Qwen | 6.3 | 5.6 | 1/2 | 809ms |
| #151 | Trinity Large Preview none | Arcee AI | 3.5 | 4.6 | 0/2 | 822ms |
| #152 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.6 | 1/2 | 857ms |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #122 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.5 | 1/2 | 888ms |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #88 | Qwen3.7 Plus none | Qwen | 6.3 | 6.4 | 1/2 | 929ms |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 2/2 | 943ms |
| #136 | Elephant Alpha medium | Openrouter | 9.8 | 5.1 | 2/2 | 987ms |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 6.4 | 5.5 | 1/2 | 1.03s |