AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #67 | Qwen3.5-27B none | Qwen | 4.8 | 5.9 | 0/2 | 815ms |
| #70 | Qwen3.5-122B-A10B none | Qwen | 4.5 | 5.7 | 0/2 | 585ms |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #79 | Grok 4.20 Beta none | X AI | 4.8 | 5.3 | 0/2 | 687ms |
| #80 | MiniMax M2.7 medium | Minimax | 3.7 | 5.3 | 0/2 | 12.6s |
| #82 | Grok 4.20 none | X AI | 4.8 | 5.2 | 0/2 | 455ms |
| #87 | Qwen3 Coder Next none | Qwen | 4.8 | 5.1 | 0/2 | 7.71s |
| #88 | Nemotron 3 Super none | NVIDIA | 4.9 | 5.1 | 0/2 | 1.50s |
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #92 | Qwen3 Coder Next medium | Qwen | 4.8 | 4.7 | 0/2 | 7.34s |
| #95 | Grok 4.1 Fast none | X AI | 3.0 | 4.5 | 0/2 | 923ms |
| #96 | GPT-5.4 Nano none | OpenAI | 5.0 | 4.5 | 0/2 | 787ms |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #11 | Gemini 3.1 Flash Lite Preview high | 7.9 | 8.4 | 1/2 | 70.1s |