AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY زمرہ ناکامیاں

کوڈنگ: غلط جواب

کوڈنگ
غلط جواب

دیکھیں کہ کوڈنگ میں کن AI ماڈلز کو غلط جواب پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

15

کل ناکامیاں

26

سب سے زیادہ متاثر ماڈل

MiMo-V2-Omni 1
درجہ ماڈل کمپنی غلط جواب کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#32 MiMo-V2-Omni medium Xiaomi 1 4.0 0/1 68.5s
#54 GPT-5 Nano medium OpenAI 1 6.7 0/1 40.7s
#74 Trinity Large Preview none Arcee AI 1 6.3 0/1 39.5s
#69 Mistral Small 4 medium Mistral 1 6.7 0/1 30.5s
#65 gpt-oss-120b medium OpenAI 1 4.3 0/1 26.3s
#44 Grok 4.20 medium X AI 1 4.3 0/1 24.3s
#71 GLM 5.1 none Z.ai 1 5.1 0/1 9.79s
#79 gpt-oss-120b none OpenAI 1 4.3 0/1 9.57s
#50 GLM 5 none Z.ai 1 5.6 0/1 8.84s
#61 DeepSeek V3.2 none DeepSeek 1 2.4 0/1 7.63s
#84 Qwen3.5-9B none Qwen 1 5.2 0/1 5.69s
#70 GLM 4.7 Flash none Z.ai 1 6.4 0/1 5.57s
#73 GLM 5 Turbo none Z.ai 1 5.3 0/1 3.93s
#46 Qwen3.5 Plus 2026-02-15 none Qwen 1 6.3 0/1 3.63s
#66 Qwen3.5-122B-A10B none Qwen 1 4.3 0/1 3.44s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز