AI BENCHY
Advertise here

AI BENCHY ناکامیاں

کوئی جواب نہیں ناکامیاں

دیکھیں کہ کن AI ماڈلز میں کوئی جواب نہیں سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: اسکور ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

43

سب سے زیادہ متاثر ماڈل

Qwen3.5-9B 2
درجہ ماڈل کمپنی کوئی جواب نہیں کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#62 Step 3.5 Flash medium Stepfun 1 7.2 11/20 72.5s
#60 Kimi K2.6 medium Moonshot AI 1 7.2 12/21 71.7s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#53 Gemini 3.1 Flash Lite high Google 1 7.3 10/18 62.0s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#37 Gemma 4 26B A4B medium Google 2 7.6 14/21 63.4s
#27 Gemma 4 31B medium Google 1 7.8 14/21 56.5s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز