AI BENCHY
Advertise here

AI BENCHY अपयशे

चुकीचे उत्तर अपयशे

कोणत्या AI मॉडेल्सना चुकीचे उत्तर सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: स्कोअर ↓.

दाखवलेली मॉडेल्स

15

एकूण अपयशे

1204

सर्वाधिक प्रभावित मॉडेल

Gemini 3 Flash Preview 1
क्रमांक मॉडेल कंपनी चुकीचे उत्तर संख्या स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#79 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#80 Mimo V2 Omni medium Xiaomi 5 6.7 10/21 41.2s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#83 Step 3.5 Flash none Stepfun 1 6.6 6/12 39.0s
#84 Grok 4.20 Multi Agent Beta medium X AI 4 6.6 8/18 9.69s
#85 Gemma 4 31B none Google 8 6.5 10/21 4.05s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#87 Gemini 3.1 Flash Lite minimal Google 8 6.4 10/21 1.33s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#89 Hy3 preview low Tencent 4 6.4 10/21 24.6s
#90 Gemini 3.1 Flash Lite none Google 11 6.4 9/21 1.06s

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स