AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 6.4 | 5.5 | 1/2 | 2.63s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 6.4 | 5.5 | 1/2 | 1.03s |
| #159 | Ling-2.6-1T none | Inclusionai | 6.4 | 4.3 | 1/2 | 5.36s |
| #32 | Gemini 3.5 Flash minimal | 6.4 | 7.7 | 1/2 | 893ms | |
| #48 | Gemini 3 Flash Preview none | 6.4 | 7.4 | 1/2 | 1.58s | |
| #55 | GLM 5.1 medium | Z.ai | 6.4 | 7.3 | 1/2 | 7.47s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 6.5 | 6.8 | 1/2 | 1.96s |
| #85 | Gemma 4 31B none | 6.5 | 6.5 | 1/2 | 2.84s | |
| #86 | Grok 4.1 Fast medium | X AI | 6.5 | 6.5 | 1/2 | 4.63s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 6.5 | 6.3 | 1/2 | 3.40s |
| #101 | Mimo V2 Omni none | Xiaomi | 6.5 | 6.0 | 1/2 | 4.26s |
| #109 | GLM 5V Turbo none | Z.ai | 6.5 | 5.8 | 1/2 | 1.97s |
| #111 | Owl Alpha medium | Openrouter | 6.5 | 5.7 | 1/2 | 10.2s |
| #120 | Mimo V2 PRO none | Xiaomi | 6.5 | 5.6 | 1/2 | 2.51s |
| #122 | GLM 4.7 Flash none | Z.ai | 6.5 | 5.5 | 1/2 | 888ms |