AI BENCHY
Your ad here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.0

सर्वश्रेष्ठ मॉडल

Gemma 4 26B A4B 4.4
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#60 Gemma 4 26B A4B none Google 4.4 6.2 0/2 1.08s
#67 Qwen3.5-27B none Qwen 4.8 5.9 0/2 815ms
#70 Qwen3.5-122B-A10B none Qwen 4.5 5.7 0/2 585ms
#78 Trinity Large Preview none Arcee AI 4.1 5.3 0/2 1.09s
#79 Grok 4.20 Beta none X AI 4.8 5.3 0/2 687ms
#80 MiniMax M2.7 medium Minimax 3.7 5.3 0/2 12.6s
#82 Grok 4.20 none X AI 4.8 5.2 0/2 455ms
#87 Qwen3 Coder Next none Qwen 4.8 5.1 0/2 7.71s
#88 Nemotron 3 Super none NVIDIA 4.9 5.1 0/2 1.50s
#89 GPT-4o-mini none OpenAI 4.8 4.9 0/2 1.27s
#92 Qwen3 Coder Next medium Qwen 4.8 4.7 0/2 7.34s
#95 Grok 4.1 Fast none X AI 3.0 4.5 0/2 923ms
#96 GPT-5.4 Nano none OpenAI 5.0 4.5 0/2 787ms
#98 LFM2-24B-A2B none Liquid 4.8 4.1 0/2 1.09s
#11 Gemini 3.1 Flash Lite Preview high Google 7.9 8.4 1/2 70.1s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल