AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY ناکامیاں

غلط جواب ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

15

کل ناکامیاں

1204

سب سے زیادہ متاثر ماڈل

Mistral Small 4 15
درجہ ماڈل کمپنی غلط جواب کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز