AI BENCHY
Advertise here

AI BENCHY श्रेणी

निर्देश पालन रैंकिंग

देखें कि निर्देश पालन में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

औसत निर्देश पालन स्कोर

8.5

सर्वश्रेष्ठ मॉडल

Gemini 3 Flash Preview 10.0
रैंक मॉडल कंपनी निर्देश पालन स्कोर स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#16 Gemini 3 Flash Preview low Google 9.9 8.4 2/2 7.02s
#17 GLM 5 medium Z.ai 10.0 8.3 2/2 7.25s
#18 Qwen3.7 Plus medium Qwen 10.0 8.2 2/2 16.1s
#19 Seed-2.0-Lite medium Bytedance Seed 10.0 8.2 2/2 7.26s
#20 Gemini 3.5 Flash none Google 9.8 8.1 2/2 3.38s
#21 GPT-5.4 medium OpenAI 10.0 8.0 2/2 3.11s
#22 Step 3.7 Flash medium Stepfun 9.8 8.0 2/2 1.83s
#23 GLM 5 Turbo medium Z.ai 10.0 8.0 2/2 5.38s
#24 GPT-5.2 Chat none OpenAI 9.8 7.9 2/2 5.51s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 10.0 7.9 2/2 31.9s
#26 Qwen3.6 Plus medium Qwen 10.0 7.9 2/2 7.54s
#27 Gemma 4 31B medium Google 10.0 7.8 2/2 12.8s
#28 Gemini 2.5 Flash medium Google 9.8 7.8 2/2 2.62s
#29 Qwen3.5-122B-A10B medium Qwen 10.0 7.8 2/2 9.88s
#30 Qwen3.5-27B medium Qwen 10.0 7.8 2/2 19.7s

निर्देश पालन स्कोर के अनुसार शीर्ष मॉडल

निर्देश पालन स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल