AI BENCHY
Your ad here

AI BENCHY ناکامیاں

غلط جواب ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

572

سب سے زیادہ متاثر ماڈل

Mercury 2 13
درجہ ماڈل کمپنی غلط جواب کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 3 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#93 GLM 4.7 Flash medium Z.ai 8 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز