AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #83 | Step 3.5 Flash none | Stepfun | 10.0 | 6.6 | 1/1 | 9.30s |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 2/2 | 932ms | |
| #89 | Hy3 preview low | Tencent | 10.0 | 6.4 | 2/2 | 16.0s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 2/2 | 859ms | |
| #92 | Laguna M.1 medium | Poolside | 10.0 | 6.4 | 2/2 | 4.30s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 2/2 | 1.67s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 2/2 | 590ms | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 2/2 | 1.48s |
| #103 | DeepSeek V4 Pro high | DeepSeek | 10.0 | 6.0 | 2/2 | 41.2s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 2/2 | 1.46s |
| #107 | Laguna Xs.2 medium | Poolside | 10.0 | 5.8 | 2/2 | 1.68s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 2/2 | 1.06s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 2/2 | 1.52s |