AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #50 | Hunter Alpha medium | OpenRouter | 9.9 | 6.7 | 2/2 | 4.18s |
| #53 | GLM 5 none | Z.ai | 10.0 | 6.6 | 2/2 | 1.48s |
| #54 | Mercury 2 medium | Inception | 10.0 | 6.5 | 2/2 | 1.07s |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 6.2 | 2/2 | 1.06s |
| #64 | DeepSeek V3.2 none | DeepSeek | 10.0 | 6.1 | 2/2 | 1.52s |
| #68 | gpt-oss-120b medium | OpenAI | 9.9 | 5.8 | 2/2 | 7.63s |
| #81 | Elephant medium | Openrouter | 9.8 | 5.2 | 2/2 | 987ms |
| #85 | Elephant none | Openrouter | 9.8 | 5.2 | 2/2 | 1.03s |