AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Mistral Small 4 6.5
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#83 Mistral Small 4 none Mistral 6.5 5.2 1/2 380ms
#82 Grok 4.20 none X AI 4.8 5.2 0/2 455ms
#90 Qwen3.5-9B none Qwen 6.5 4.8 1/2 514ms
#91 Mercury 2 none Inception 6.5 4.8 1/2 551ms
#70 Qwen3.5-122B-A10B none Qwen 4.5 5.7 0/2 585ms
#62 Gemini 2.5 Flash none Google 8.0 6.2 1/2 672ms
#79 Grok 4.20 Beta none X AI 4.8 5.3 0/2 687ms
#86 GPT-5.4 Mini none OpenAI 6.3 5.1 1/2 728ms
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#94 MiMo-V2-Flash none Xiaomi 6.5 4.5 1/2 857ms
#74 GLM 4.7 Flash none Z.ai 6.5 5.6 1/2 888ms
#95 Grok 4.1 Fast none X AI 3.0 4.5 0/2 923ms
#81 Elephant medium Openrouter 9.8 5.2 2/2 987ms

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल