AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Kimi K2.5 5
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#156 Hy3 preview none Tencent 8 4.4 4/21 12.9s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s
#111 Owl Alpha medium Openrouter 10 5.7 8/21 11.9s
#79 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#20 Gemini 3.5 Flash none Google 3 8.1 15/21 9.93s
#121 Owl Alpha none Openrouter 10 5.5 7/21 9.88s
#6 GPT-5.5 low OpenAI 3 9.0 18/21 9.76s
#13 Grok 4.20 Beta medium X AI 3 8.5 14/18 9.75s
#84 Grok 4.20 Multi Agent Beta medium X AI 4 6.6 8/18 9.69s
#10 Claude Opus 4.8 medium Anthropic 3 8.7 17/21 9.66s
#132 Mistral Small 4 medium Mistral 12 5.3 5/21 9.40s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल