AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

ڈومین مخصوص: غلط جواب

ڈومین مخصوص
غلط جواب

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

4

کل ناکامیاں

314

سب سے زیادہ متاثر ماڈل

Qwen3.6 Max Preview 3
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#122 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#130 MiniMax M2.7 medium Minimax 1 3.0 0/3 19.0s
#132 Mistral Small 4 medium Mistral 1 5.3 1/3 6.11s
#160 LFM2-24B-A2B none Liquid 1 5.9 1/3 287ms

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز