सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: एकूण खर्च ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

GPT-5.5 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $3.679 प्रतिसाद वेळ (सरासरी) 37.9s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 63.2s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 30.1s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 14.0s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 4.87s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 60.6s
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.927 प्रतिसाद वेळ (सरासरी) 53.5s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.907 प्रतिसाद वेळ (सरासरी) 10.1s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.889 प्रतिसाद वेळ (सरासरी) 130.3s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 14.4s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 234.2s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 2.25s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 44.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 63.5s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 52.9s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स