AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #52 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 7.4 | 2/2 | 2.61s |
| #44 | Gemini 3.1 Flash Lite medium | 9.9 | 7.5 | 2/2 | 2.59s | |
| #120 | Mimo V2 PRO none | Xiaomi | 6.5 | 5.6 | 1/2 | 2.51s |
| #69 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.0 | 2/2 | 2.43s |
| #134 | GLM 5 Turbo none | Z.ai | 6.5 | 5.2 | 1/2 | 2.13s |
| #45 | GPT-5.4 Mini medium | OpenAI | 9.8 | 7.5 | 2/2 | 2.13s |
| #112 | GLM 5.1 none | Z.ai | 9.8 | 5.7 | 2/2 | 1.98s |
| #109 | GLM 5V Turbo none | Z.ai | 6.5 | 5.8 | 1/2 | 1.97s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 6.5 | 6.8 | 1/2 | 1.96s |
| #118 | Qwen3.6 27B none | Qwen | 6.2 | 5.6 | 1/2 | 1.92s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 2/2 | 1.91s | |
| #70 | GPT-5.4 Nano medium | OpenAI | 9.8 | 7.0 | 2/2 | 1.88s |
| #3 | Gemini 3.5 Flash low | 9.9 | 9.4 | 2/2 | 1.86s | |
| #153 | Qwen3.6 35B A3B none | Qwen | 6.2 | 4.6 | 1/2 | 1.86s |
| #22 | Step 3.7 Flash medium | Stepfun | 9.8 | 8.0 | 2/2 | 1.83s |