AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 2/2 | 943ms |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #88 | Qwen3.7 Plus none | Qwen | 6.3 | 6.4 | 1/2 | 929ms |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #122 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.5 | 1/2 | 888ms |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #152 | MiMo-V2-Flash none | Xiaomi | 6.5 | 4.6 | 1/2 | 857ms |
| #151 | Trinity Large Preview none | Arcee AI | 3.5 | 4.6 | 0/2 | 822ms |
| #117 | Qwen3.5-35B-A3B none | Qwen | 6.3 | 5.6 | 1/2 | 809ms |
| #141 | Nemotron 3 Super none | NVIDIA | 6.3 | 4.9 | 1/2 | 804ms |
| #148 | GPT-5.4 Nano none | OpenAI | 6.3 | 4.7 | 1/2 | 784ms |
| #160 | LFM2-24B-A2B none | Liquid | 6.3 | 4.2 | 1/2 | 752ms |
| #143 | MiMo-V2.5 none | Xiaomi | 6.5 | 4.9 | 1/2 | 751ms |
| #144 | GPT-5.4 Mini none | OpenAI | 6.3 | 4.9 | 1/2 | 728ms |
| #102 | Gemma 4 26B A4B none | 6.3 | 6.0 | 1/2 | 690ms |