AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Kimi K2.5 5
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#35 Gemini 3 PRO Preview medium Google 3 7.6 14/21 9.05s
#2 Gemini 3.5 Flash high Google 1 9.6 20/21 8.84s
#140 Qwen3 Coder Next none Qwen 14 4.9 5/21 8.62s
#150 Qwen3 Coder Next medium Qwen 13 4.6 4/21 8.58s
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#102 Gemma 4 26B A4B none Google 10 6.0 8/21 5.91s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#141 Nemotron 3 Super none NVIDIA 14 4.9 5/21 5.30s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#7 Gemini 3.5 Flash medium Google 2 9.0 18/21 4.94s
#11 Claude Opus 4.7 medium Anthropic 3 8.7 17/21 4.73s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल