AI BENCHY
Advertise here

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

1204

सर्वाधिक प्रभावित मॉडेल

Kimi K2.5 5
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#85 Gemma 4 31B none Google 8 6.5 10/21 4.05s
#98 GLM 5 none Z.ai 12 6.1 9/21 4.03s
#40 Gemini 3.1 Flash Lite Preview medium Google 7 7.5 13/21 3.96s
#153 Qwen3.6 35B A3B none Qwen 13 4.6 4/21 3.73s
#118 Qwen3.6 27B none Qwen 11 5.6 7/21 3.72s
#108 Qwen3.5-Flash none Qwen 13 5.8 8/21 3.58s
#68 Claude Opus 4.8 none Anthropic 4 7.0 12/21 3.47s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#117 Qwen3.5-35B-A3B none Qwen 12 5.6 7/21 3.37s
#74 Qwen3.6 Max Preview none Qwen 10 6.9 11/21 3.30s
#3 Gemini 3.5 Flash low Google 2 9.4 19/21 3.27s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s
#8 Claude Opus 4.7 none Anthropic 3 8.9 16/19 3.02s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स