AI BENCHY
Your ad here

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील.

दाखवलेली मॉडेल्स

7

एकूण अपयशे

572

सर्वाधिक प्रभावित मॉडेल

GPT-4o-mini 13
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#2 Gemini 3.1 Pro Preview medium Google 1 9.6 17/18 16.0s
#3 Claude Opus 4.7 medium Anthropic 1 9.2 16/18 3.53s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#32 Qwen3.5-Flash medium Qwen 1 7.8 11/18 66.7s
#97 Qwen3.5-9B medium Qwen 1 4.4 3/18 73.6s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स