AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #95 | Grok 4.1 Fast none | X AI | 3.0 | 4.5 | 0/2 | 923ms |
| #80 | MiniMax M2.7 medium | Minimax | 3.7 | 5.3 | 0/2 | 12.6s |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #70 | Qwen3.5-122B-A10B none | Qwen | 4.5 | 5.7 | 0/2 | 585ms |
| #67 | Qwen3.5-27B none | Qwen | 4.8 | 5.9 | 0/2 | 815ms |
| #79 | Grok 4.20 Beta none | X AI | 4.8 | 5.3 | 0/2 | 687ms |
| #82 | Grok 4.20 none | X AI | 4.8 | 5.2 | 0/2 | 455ms |
| #87 | Qwen3 Coder Next none | Qwen | 4.8 | 5.1 | 0/2 | 7.71s |
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #92 | Qwen3 Coder Next medium | Qwen | 4.8 | 4.7 | 0/2 | 7.34s |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #88 | Nemotron 3 Super none | NVIDIA | 4.9 | 5.1 | 0/2 | 1.50s |
| #96 | GPT-5.4 Nano none | OpenAI | 5.0 | 4.5 | 0/2 | 787ms |
| #93 | GLM 4.7 Flash medium | Z.ai | 6.2 | 4.6 | 1/2 | 2.97s |