AI BENCHY
Your ad here

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

572

सर्वाधिक प्रभावित मॉडेल

Mercury 2 13
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#45 GPT-5 Mini medium OpenAI 4 7.0 9/18 24.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#14 Gemma 4 31B medium Google 1 8.3 13/18 24.9s
#24 Gemma 4 26B A4B medium Google 2 8.0 13/18 25.0s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#6 Seed-2.0-Lite medium Bytedance Seed 3 8.6 13/18 30.4s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#93 GLM 4.7 Flash medium Z.ai 8 4.6 4/18 32.3s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#43 Qwen3.5-35B-A3B medium Qwen 2 7.4 10/18 44.5s
#34 Kimi K2.6 medium Moonshot AI 2 7.7 11/18 45.2s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स