AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#93 Qwen3.6 Plus Preview medium Qwen 2 6.3 9/19 15.2s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#80 Mimo V2 Omni medium Xiaomi 5 6.7 10/21 41.2s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s
#85 Gemma 4 31B none Google 8 6.5 10/21 4.05s
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#89 Hy3 preview low Tencent 4 6.4 10/21 24.6s
#91 GPT-5.5 none OpenAI 11 6.4 10/21 1.89s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#59 GLM 5V Turbo medium Z.ai 7 7.2 11/21 23.1s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल