AI BENCHY
Advertise here

AI BENCHY ناکامیاں

کوئی جواب نہیں ناکامیاں

دیکھیں کہ کن AI ماڈلز میں کوئی جواب نہیں سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ناکامیوں کی تعداد ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

43

سب سے زیادہ متاثر ماڈل

Claude Opus 4.8 1
درجہ ماڈل کمپنی کوئی جواب نہیں کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#27 Gemma 4 31B medium Google 1 7.8 14/21 56.5s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#53 Gemini 3.1 Flash Lite high Google 1 7.3 10/18 62.0s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#60 Kimi K2.6 medium Moonshot AI 1 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 1 7.2 11/20 72.5s
#67 MiniMax M3 medium Minimax 1 7.1 11/21 68.2s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s

کوئی جواب نہیں کی تعداد کے لحاظ سے سرفہرست ماڈلز

کوئی جواب نہیں کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز