AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

8

कुल विफलताएँ

1104

सबसे अधिक प्रभावित मॉडल

Mercury 2 15
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.48s
#14 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#25 Gemma 4 31B medium Google 2 8.0 14/20 35.4s
#68 Qwen3.5-35B-A3B medium Qwen 2 7.3 11/20 69.7s
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.5s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#37 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल