AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #99 | gpt-oss-120b medium | OpenAI | 9.9 | 6.1 | 2/2 | 7.63s |
| #1 | Gemini 3 Flash Preview medium | 10.0 | 9.8 | 2/2 | 4.04s | |
| #2 | Gemini 3.5 Flash high | 10.0 | 9.6 | 2/2 | 3.35s | |
| #4 | Gemini 3.1 Pro Preview medium | 10.0 | 9.4 | 2/2 | 9.56s | |
| #5 | Qwen3.7 Max medium | Qwen | 10.0 | 9.1 | 2/2 | 7.46s |
| #8 | Claude Opus 4.7 none | Anthropic | 10.0 | 8.9 | 2/2 | 1.46s |
| #9 | GPT-5.5 medium | OpenAI | 10.0 | 8.8 | 2/2 | 3.36s |
| #10 | Claude Opus 4.8 medium | Anthropic | 10.0 | 8.7 | 2/2 | 3.32s |
| #11 | Claude Opus 4.7 medium | Anthropic | 10.0 | 8.7 | 2/2 | 1.57s |
| #14 | Qwen3.6 Max Preview medium | Qwen | 10.0 | 8.5 | 2/2 | 24.3s |
| #15 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.4 | 2/2 | 3.04s |
| #17 | GLM 5 medium | Z.ai | 10.0 | 8.3 | 2/2 | 7.25s |
| #18 | Qwen3.7 Plus medium | Qwen | 10.0 | 8.2 | 2/2 | 16.1s |
| #19 | Seed-2.0-Lite medium | Bytedance Seed | 10.0 | 8.2 | 2/2 | 7.26s |
| #21 | GPT-5.4 medium | OpenAI | 10.0 | 8.0 | 2/2 | 3.11s |