AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #92 | Qwen3 Coder Next medium | Qwen | 4.8 | 4.7 | 0/2 | 7.34s |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 4.5 | 5.7 | 0/2 | 585ms |
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #80 | MiniMax M2.7 medium | Minimax | 3.7 | 5.3 | 0/2 | 12.6s |
| #95 | Grok 4.1 Fast none | X AI | 3.0 | 4.5 | 0/2 | 923ms |