AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #119 | Cobuddy medium | Baidu | 9.8 | 5.6 | 2/2 | 11.6s |
| #136 | Elephant Alpha medium | Openrouter | 9.8 | 5.1 | 2/2 | 987ms |
| #137 | Elephant Alpha none | Openrouter | 9.8 | 5.1 | 2/2 | 1.03s |
| #138 | Ling-2.6-flash none | Inclusionai | 9.8 | 5.0 | 2/2 | 5.52s |
| #12 | Gemini 3.1 Flash Lite Preview high | 9.8 | 8.6 | 2/2 | 64.0s | |
| #13 | Grok 4.20 Beta medium | X AI | 9.8 | 8.5 | 2/2 | 4.89s |
| #22 | Step 3.7 Flash medium | Stepfun | 9.8 | 8.0 | 2/2 | 1.83s |
| #24 | GPT-5.2 Chat none | OpenAI | 9.8 | 7.9 | 2/2 | 5.51s |
| #28 | Gemini 2.5 Flash medium | 9.8 | 7.8 | 2/2 | 2.62s | |
| #35 | Gemini 3 PRO Preview medium | 9.8 | 7.6 | 2/2 | 3.26s | |
| #41 | Nemotron 3 Ultra 550b A55b medium | NVIDIA | 9.8 | 7.5 | 2/2 | 6.35s |
| #45 | GPT-5.4 Mini medium | OpenAI | 9.8 | 7.5 | 2/2 | 2.13s |
| #57 | Step 3.7 Flash low | Stepfun | 9.8 | 7.3 | 2/2 | 1.58s |
| #63 | GPT-5.3 Chat none | OpenAI | 9.8 | 7.2 | 2/2 | 3.51s |
| #65 | Grok 4.20 medium | X AI | 9.8 | 7.1 | 2/2 | 4.26s |