AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान: उत्तर नाही

सामान्य ज्ञान
उत्तर नाही

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना उत्तर नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

6

एकूण अपयशे

6

सर्वाधिक प्रभावित मॉडेल

Claude Opus 4.8 1

अयशस्वी होण्याची कारणे

क्रमांक मॉडेल कंपनी उत्तर नाही संख्या श्रेणी स्कोअर बरोबर चाचण्या प्रतिसाद वेळ (सरासरी)
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

उत्तर नाही संख्या नुसार शीर्ष मॉडेल्स

उत्तर नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स