AI BENCHY
Advertise here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#107 Laguna Xs.2 medium Poolside 10.0 5.8 2/2 1.68s
#110 Seed-2.0-Lite none Bytedance Seed 10.0 5.8 2/2 1.06s
#112 GLM 5.1 none Z.ai 9.8 5.7 2/2 1.98s
#119 Cobuddy medium Baidu 9.8 5.6 2/2 11.6s
#126 gpt-oss-120b none OpenAI 9.8 5.4 2/2 5.06s
#133 DeepSeek V3.2 none DeepSeek 10.0 5.2 2/2 1.52s
#136 Elephant Alpha medium Openrouter 9.8 5.1 2/2 987ms
#137 Elephant Alpha none Openrouter 9.8 5.1 2/2 1.03s
#138 Ling-2.6-flash none Inclusionai 9.8 5.0 2/2 5.52s
#32 Gemini 3.5 Flash minimal Google 6.4 7.7 1/2 893ms
#48 Gemini 3 Flash Preview none Google 6.4 7.4 1/2 1.58s
#53 Gemini 3.1 Flash Lite high Google 7.3 7.3 1/2 23.3s
#55 GLM 5.1 medium Z.ai 6.4 7.3 1/2 7.47s
#62 Step 3.5 Flash medium Stepfun 8.3 7.2 1/2 4.78s
#77 Claude Sonnet 4.6 none Anthropic 6.5 6.8 1/2 1.96s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल