AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

ڈومین مخصوص: غلط جواب

ڈومین مخصوص
غلط جواب

دیکھیں کہ ڈومین مخصوص میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

15

کل ناکامیاں

314

سب سے زیادہ متاثر ماڈل

Qwen3.6 Max Preview 3
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#14 Qwen3.6 Max Preview medium Qwen 3 2.9 0/3 95.9s
#18 Qwen3.7 Plus medium Qwen 3 3.6 0/3 45.3s
#26 Qwen3.6 Plus medium Qwen 3 2.9 0/3 29.6s
#29 Qwen3.5-122B-A10B medium Qwen 3 2.9 0/3 63.4s
#31 DeepSeek V4 Flash high DeepSeek 3 4.1 0/3 100.3s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 3 2.9 0/3 53.1s
#39 Qwen3.6 Flash medium Qwen 3 3.5 0/3 14.6s
#40 Gemini 3.1 Flash Lite Preview medium Google 3 3.0 0/3 4.21s
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 3 3.5 0/3 24.9s
#44 Gemini 3.1 Flash Lite medium Google 3 2.9 0/3 3.16s
#45 GPT-5.4 Mini medium OpenAI 3 4.1 0/3 65.3s
#53 Gemini 3.1 Flash Lite high Google 3 3.6 0/3 139.9s
#63 GPT-5.3 Chat none OpenAI 3 3.5 0/3 13.0s
#75 Ring-2.6-1T medium Inclusionai 3 3.5 0/3 64.9s
#78 Qwen3.6 27B medium Qwen 3 2.9 0/3 73.4s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز