AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#56 Grok 4.20 Multi Agent Beta medium X AI 8.3 6.4 1/2 4.63s
#57 GPT-5 Nano medium OpenAI 8.5 6.3 1/2 11.9s
#58 GLM 5V Turbo none Z.ai 6.5 6.2 1/2 1.97s
#59 Qwen3.5-Flash none Qwen 6.3 6.2 1/2 8.81s
#62 Gemini 2.5 Flash none Google 8.0 6.2 1/2 672ms
#63 Qwen3.5-35B-A3B none Qwen 6.3 6.1 1/2 809ms
#65 MiMo-V2-Pro none Xiaomi 6.5 6.0 1/2 2.51s
#66 GPT-5.4 none OpenAI 6.5 5.9 1/2 1.07s
#69 Kimi K2.6 none Moonshot AI 6.5 5.8 1/2 1.64s
#71 MiniMax M2.5 medium Minimax 8.1 5.7 1/2 4.64s
#72 Hunter Alpha none OpenRouter 6.4 5.7 1/2 2.82s
#73 Mistral Small 4 medium Mistral 7.3 5.7 1/2 1.38s
#74 GLM 4.7 Flash none Z.ai 6.5 5.6 1/2 888ms
#75 GLM 5.1 none Z.ai 8.3 5.6 1/2 1.58s
#76 Kimi K2.5 none Moonshot AI 6.5 5.5 1/2 2.67s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल