AI BENCHY श्रेणी
निर्देश पालन रैंकिंग
देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | निर्देश पालन स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #85 | Elephant none | Openrouter | 9.8 | 5.2 | 2/2 | 1.03s |
| #61 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 6.2 | 2/2 | 1.06s |
| #54 | Mercury 2 medium | Inception | 10.0 | 6.5 | 2/2 | 1.07s |
| #66 | GPT-5.4 none | OpenAI | 6.5 | 5.9 | 1/2 | 1.07s |
| #60 | Gemma 4 26B A4B none | 4.4 | 6.2 | 0/2 | 1.08s | |
| #98 | LFM2-24B-A2B none | Liquid | 4.8 | 4.1 | 0/2 | 1.09s |
| #78 | Trinity Large Preview none | Arcee AI | 4.1 | 5.3 | 0/2 | 1.09s |
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 2/2 | 1.13s | |
| #89 | GPT-4o-mini none | OpenAI | 4.8 | 4.9 | 0/2 | 1.27s |
| #73 | Mistral Small 4 medium | Mistral | 7.3 | 5.7 | 1/2 | 1.38s |
| #4 | Claude Opus 4.7 none | Anthropic | 10.0 | 9.2 | 2/2 | 1.46s |
| #53 | GLM 5 none | Z.ai | 10.0 | 6.6 | 2/2 | 1.48s |
| #22 | Gemini 3.1 Flash Lite Preview low | 10.0 | 8.1 | 2/2 | 1.49s | |
| #88 | Nemotron 3 Super none | NVIDIA | 4.9 | 5.1 | 0/2 | 1.50s |
| #64 | DeepSeek V3.2 none | DeepSeek | 10.0 | 6.1 | 2/2 | 1.52s |