AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 2/2 | 7.54s |
| #22 | Gemini 3.1 Flash Lite Preview low | 10.0 | 8.1 | 2/2 | 1.49s | |
| #24 | Gemma 4 26B A4B medium | 10.0 | 8.0 | 2/2 | 17.5s | |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 2/2 | 2.61s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 10.0 | 8.0 | 2/2 | 35.8s |
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 2/2 | 1.13s | |
| #32 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.8 | 2/2 | 63.5s |
| #34 | Kimi K2.6 medium | Moonshot AI | 10.0 | 7.7 | 2/2 | 12.5s |
| #37 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.6 | 2/2 | 2.43s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 7.5 | 2/2 | 17.5s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 10.0 | 7.5 | 2/2 | 4.28s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 2/2 | 24.4s |
| #46 | Kimi K2.5 medium | Moonshot AI | 10.0 | 7.0 | 2/2 | 92.5s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.8 | 2/2 | 1.67s |
| #53 | GLM 5 none | Z.ai | 10.0 | 6.6 | 2/2 | 1.48s |