AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Mistral Small 4 6.5
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#85 Elephant none Openrouter 9.8 5.2 2/2 1.03s
#61 Seed-2.0-Lite none Bytedance Seed 10.0 6.2 2/2 1.06s
#54 Mercury 2 medium Inception 10.0 6.5 2/2 1.07s
#66 GPT-5.4 none OpenAI 6.5 5.9 1/2 1.07s
#60 Gemma 4 26B A4B none Google 4.4 6.2 0/2 1.08s
#98 LFM2-24B-A2B none Liquid 4.8 4.1 0/2 1.09s
#78 Trinity Large Preview none Arcee AI 4.1 5.3 0/2 1.09s
#29 Gemini 3.1 Flash Lite Preview none Google 10.0 7.9 2/2 1.13s
#89 GPT-4o-mini none OpenAI 4.8 4.9 0/2 1.27s
#73 Mistral Small 4 medium Mistral 7.3 5.7 1/2 1.38s
#4 Claude Opus 4.7 none Anthropic 10.0 9.2 2/2 1.46s
#53 GLM 5 none Z.ai 10.0 6.6 2/2 1.48s
#22 Gemini 3.1 Flash Lite Preview low Google 10.0 8.1 2/2 1.49s
#88 Nemotron 3 Super none NVIDIA 4.9 5.1 0/2 1.50s
#64 DeepSeek V3.2 none DeepSeek 10.0 6.1 2/2 1.52s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल