AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ہدایات کی پیروی: غلط جواب

ہدایات کی پیروی
غلط جواب

دیکھیں کہ ہدایات کی پیروی میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

15

کل ناکامیاں

44

سب سے زیادہ متاثر ماڈل

MiniMax M2.7 1
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#80 MiniMax M2.7 medium Minimax 1 3.7 0/2 12.6s
#59 Qwen3.5-Flash none Qwen 1 6.3 1/2 8.81s
#87 Qwen3 Coder Next none Qwen 2 4.8 0/2 7.71s
#33 GLM 5.1 medium Z.ai 1 6.4 1/2 7.47s
#92 Qwen3 Coder Next medium Qwen 1 4.8 0/2 7.34s
#28 GPT-5.2 Chat none OpenAI 1 7.5 1/2 5.46s
#55 MiMo-V2-Omni none Xiaomi 1 6.5 1/2 4.18s
#36 GPT-5.3 Chat none OpenAI 1 8.3 1/2 3.29s
#93 GLM 4.7 Flash medium Z.ai 1 6.2 1/2 2.97s
#48 Gemma 4 31B none Google 1 6.5 1/2 2.84s
#72 Hunter Alpha none OpenRouter 1 6.4 1/2 2.82s
#76 Kimi K2.5 none Moonshot AI 1 6.5 1/2 2.67s
#65 MiMo-V2-Pro none Xiaomi 1 6.5 1/2 2.51s
#77 GLM 5 Turbo none Z.ai 1 6.5 1/2 2.13s
#58 GLM 5V Turbo none Z.ai 1 6.5 1/2 1.97s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز