AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Grok 4.1 Fast 3.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#71 MiniMax M2.5 medium Minimax 8.1 5.7 1/2 4.64s
#25 Grok 4.20 Beta medium X AI 8.3 8.0 1/2 4.97s
#35 MiMo-V2-Omni medium Xiaomi 8.3 7.7 1/2 4.92s
#36 GPT-5.3 Chat none OpenAI 8.3 7.7 1/2 3.29s
#56 Grok 4.20 Multi Agent Beta medium X AI 8.3 6.4 1/2 4.63s
#75 GLM 5.1 none Z.ai 8.3 5.6 1/2 1.58s
#84 gpt-oss-120b none OpenAI 8.4 5.2 1/2 5.10s
#30 Step 3.5 Flash medium Stepfun 8.5 7.9 1/2 4.98s
#57 GPT-5 Nano medium OpenAI 8.5 6.3 1/2 11.9s
#12 Gemini 3 PRO Preview medium Google 9.8 8.4 2/2 3.26s
#15 Gemini 2.5 Flash medium Google 9.8 8.2 2/2 2.62s
#38 GPT-5.4 Nano medium OpenAI 9.8 7.6 2/2 1.88s
#81 Elephant medium Openrouter 9.8 5.2 2/2 987ms
#85 Elephant none Openrouter 9.8 5.2 2/2 1.03s
#5 Gemini 3 Flash Preview low Google 9.9 8.8 2/2 7.02s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल