सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Qwen3.7 Max 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.523 प्रतिसाद वेळ (सरासरी) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.907 प्रतिसाद वेळ (सरासरी) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $3.679 प्रतिसाद वेळ (सरासरी) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.228 प्रतिसाद वेळ (सरासरी) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.159 प्रतिसाद वेळ (सरासरी) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.175 प्रतिसाद वेळ (सरासरी) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.393 प्रतिसाद वेळ (सरासरी) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.379 प्रतिसाद वेळ (सरासरी) 2.76s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स