AI BENCHY
Your ad here

AI BENCHY زمرہ ناکامیاں

ڈومین مخصوص: غلط جواب

ڈومین مخصوص
غلط جواب

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

182

سب سے زیادہ متاثر ماڈل

Qwen3.6 Plus Preview 3
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#9 Qwen3.6 Plus Preview medium Qwen 3 3.0 0/3 22.1s
#13 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#17 Gemini 3.1 Flash Lite Preview medium Google 3 3.0 0/3 4.21s
#18 GLM 5 Turbo medium Z.ai 2 2.9 0/3 71.1s
#19 Qwen3.5-122B-A10B medium Qwen 3 2.9 0/3 63.4s
#20 Qwen3.6 Plus medium Qwen 3 2.9 0/3 29.6s
#24 Gemma 4 26B A4B medium Google 2 2.9 0/3 23.6s
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#35 MiMo-V2-Omni medium Xiaomi 1 3.0 0/3 55.1s
#36 GPT-5.3 Chat none OpenAI 3 3.5 0/3 13.0s
#37 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#43 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#44 GPT-5.4 Mini medium OpenAI 3 4.1 0/3 65.3s
#45 GPT-5 Mini medium OpenAI 2 3.6 0/3 44.6s
#46 Kimi K2.5 medium Moonshot AI 2 3.5 0/3 137.3s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز