AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #23 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.0 | 2/2 | 5.38s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 10.0 | 7.9 | 2/2 | 31.9s |
| #26 | Qwen3.6 Plus medium | Qwen | 10.0 | 7.9 | 2/2 | 7.54s |
| #27 | Gemma 4 31B medium | 10.0 | 7.8 | 2/2 | 12.8s | |
| #29 | Qwen3.5-122B-A10B medium | Qwen | 10.0 | 7.8 | 2/2 | 9.88s |
| #30 | Qwen3.5-27B medium | Qwen | 10.0 | 7.8 | 2/2 | 19.7s |
| #31 | DeepSeek V4 Flash high | DeepSeek | 10.0 | 7.7 | 2/2 | 15.4s |
| #33 | Hy3 preview medium | Tencent | 10.0 | 7.7 | 2/2 | 6.16s |
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 2/2 | 943ms |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 10.0 | 7.6 | 2/2 | 20.2s |
| #37 | Gemma 4 26B A4B medium | 10.0 | 7.6 | 2/2 | 17.5s | |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 2/2 | 6.05s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 2/2 | 1.91s | |
| #46 | Qwen3.6 35B A3B medium | Qwen | 10.0 | 7.4 | 2/2 | 7.50s |
| #49 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.4 | 2/2 | 63.5s |