AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #24 | Gemma 4 26B A4B medium | 10.0 | 8.0 | 2/2 | 17.5s | |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 2/2 | 2.61s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 10.0 | 8.0 | 2/2 | 35.8s |
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 2/2 | 1.13s | |
| #31 | GLM 5V Turbo medium | Z.ai | 9.9 | 7.8 | 2/2 | 3.74s |
| #32 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.8 | 2/2 | 63.5s |
| #34 | Kimi K2.6 medium | Moonshot AI | 10.0 | 7.7 | 2/2 | 12.5s |
| #37 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.6 | 2/2 | 2.43s |
| #38 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.6 | 2/2 | 1.88s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 7.5 | 2/2 | 17.5s |
| #40 | GPT-5.2 medium | OpenAI | 9.9 | 7.5 | 2/2 | 3.12s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 10.0 | 7.5 | 2/2 | 4.28s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 2/2 | 24.4s |
| #46 | Kimi K2.5 medium | Moonshot AI | 10.0 | 7.0 | 2/2 | 92.5s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.8 | 2/2 | 1.67s |