AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY ناکامیاں

غلط جواب ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غلط جواب سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔

دکھائے گئے ماڈلز

15

کل ناکامیاں

1092

سب سے زیادہ متاثر ماڈل

Mercury 2 15
درجہ ماڈل کمپنی غلط جواب کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#22 Hy3 preview high Tencent 3 8.0 16/20 56.8s
#25 Qwen3.5-27B medium Qwen 3 7.9 13/20 60.8s
#40 MiMo-V2.5-Pro medium Xiaomi 3 7.6 12/20 21.8s
#46 Claude Sonnet 4.6 medium Anthropic 3 7.6 13/20 15.7s
#48 Gemini 3.1 Flash Lite high Google 3 7.5 11/18 62.0s
#54 Kimi K2.6 medium Moonshot AI 3 7.4 12/20 54.1s
#57 GPT-5.2 medium OpenAI 3 7.4 12/20 16.4s
#63 Claude Opus 4.6 medium Anthropic 3 7.2 12/20 25.4s
#70 Qwen3.5-35B-A3B medium Qwen 3 7.0 10/20 69.4s
#151 Qwen3.5-9B medium Qwen 3 4.2 3/20 80.1s
#3 Gemini 3.5 Flash low Google 2 9.3 18/20 2.98s
#4 Gemini 3.1 Pro Preview medium Google 2 9.3 18/20 20.8s
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.50s
#23 Gemma 4 31B medium Google 2 8.0 14/20 35.5s

غلط جواب کی تعداد کے لحاظ سے سرفہرست ماڈلز

غلط جواب کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز