सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Qwen3.7 Max 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.303 प्रतिसाद वेळ (सरासरी) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.011 प्रतिसाद वेळ (सरासरी) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 114.1s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स