सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Kimi K2.7 Code 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.583 प्रतिसाद वेळ (सरासरी) 341.8s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 234.2s
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 180.9s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 177.4s
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 133.6s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.889 प्रतिसाद वेळ (सरासरी) 130.3s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 122.9s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 114.1s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 113.9s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 108.4s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 103.8s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 92.6s
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 91.1s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 90.1s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 85.1s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स