AI BENCHY
Advertise here

AI BENCHY ناکامیاں

غلط جواب ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

1204

سب سے زیادہ متاثر ماڈل

Mistral Small 4 15
درجہ ماڈل کمپنی غلط جواب کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#10 Claude Opus 4.8 medium Anthropic 3 8.7 17/21 9.66s
#84 Grok 4.20 Multi Agent Beta medium X AI 4 6.6 8/18 9.69s
#13 Grok 4.20 Beta medium X AI 3 8.5 14/18 9.75s
#6 GPT-5.5 low OpenAI 3 9.0 18/21 9.76s
#121 Owl Alpha none Openrouter 10 5.5 7/21 9.88s
#20 Gemini 3.5 Flash none Google 3 8.1 15/21 9.93s
#79 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#111 Owl Alpha medium Openrouter 10 5.7 8/21 11.9s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#156 Hy3 preview none Tencent 8 4.4 4/21 12.9s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#92 Laguna M.1 medium Poolside 4 6.4 9/19 14.7s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز