AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: स्कोअर ↑.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

572

सर्वाधिक प्रभावित मॉडेल

LFM2-24B-A2B 9
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#23 MiMo-V2-Pro medium Xiaomi 3 8.1 12/18 12.3s
#22 Gemini 3.1 Flash Lite Preview low Google 4 8.1 13/18 3.22s
#21 Gemini 3 Flash Preview none Google 5 8.1 13/18 1.65s
#20 Qwen3.6 Plus medium Qwen 3 8.1 13/18 15.3s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#18 GLM 5 Turbo medium Z.ai 3 8.1 12/18 17.7s
#17 Gemini 3.1 Flash Lite Preview medium Google 4 8.2 13/18 3.74s
#16 GPT-5.4 medium OpenAI 3 8.2 13/18 18.6s
#15 Gemini 2.5 Flash medium Google 4 8.2 13/18 12.1s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#13 GLM 5 medium Z.ai 2 8.4 13/18 23.3s
#12 Gemini 3 PRO Preview medium Google 3 8.4 14/18 9.06s
#11 Gemini 3.1 Flash Lite Preview high Google 3 8.4 12/16 68.8s
#10 Qwen3.5-27B medium Qwen 1 8.4 13/18 53.0s
#9 Qwen3.6 Plus Preview medium Qwen 3 8.5 13/17 13.9s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स