AI BENCHY
Advertise here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#16 Gemini 3 Flash Preview low Google 9.9 8.4 2/2 7.02s
#42 GPT-5.2 medium OpenAI 9.9 7.5 2/2 3.12s
#43 MiMo-V2.5-Pro medium Xiaomi 9.9 7.5 2/2 2.77s
#44 Gemini 3.1 Flash Lite medium Google 9.9 7.5 2/2 2.59s
#51 Mimo V2 PRO medium Xiaomi 9.9 7.4 2/2 3.36s
#56 MiMo-V2.5 medium Xiaomi 9.9 7.3 2/2 1.80s
#59 GLM 5V Turbo medium Z.ai 9.9 7.2 2/2 3.74s
#68 Claude Opus 4.8 none Anthropic 9.9 7.0 2/2 1.37s
#79 Hunter Alpha medium OpenRouter 9.9 6.7 2/2 4.18s
#99 gpt-oss-120b medium OpenAI 9.9 6.1 2/2 7.63s
#20 Gemini 3.5 Flash none Google 9.8 8.1 2/2 3.38s
#38 Grok 4.3 medium X AI 9.8 7.6 2/2 18.6s
#47 Grok Build 0.1 medium X AI 9.8 7.4 2/2 12.4s
#67 MiniMax M3 medium Minimax 9.8 7.1 2/2 6.14s
#70 GPT-5.4 Nano medium OpenAI 9.8 7.0 2/2 1.88s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल