सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Qwen3.7 Max 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 91.1s
#26	Nemotron 3 Ultra 550b A55b medium	NVIDIA	1	3.0	$0.158	0/1	38.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.158 प्रतिसाद वेळ (सरासरी) 38.5s
#27	GPT-5.4 Mini medium	OpenAI	1	3.0	$0.526	0/1	30.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.526 प्रतिसाद वेळ (सरासरी) 30.1s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 103.8s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 85.1s
#30	Qwen3.6 Plus medium	Qwen	1	3.0	$0.294	0/1	47.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.294 प्रतिसाद वेळ (सरासरी) 47.5s
#31	Claude Sonnet 4.6 medium	Anthropic	1	3.0	$1.418	0/1	30.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 30.1s
#32	Gemini 3.1 Flash Lite Preview medium	Google	1	3.0	$0.068	0/1	2.68s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.68s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 92.6s
#34	Gemini 3.1 Flash Lite medium	Google	1	3.0	$0.071	0/1	3.08s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.08s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.889 प्रतिसाद वेळ (सरासरी) 130.3s
#36	Qwen3.5-122B-A10B medium	Qwen	1	3.0	$0.588	0/1	52.9s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 52.9s
#37	Grok 4.3 medium	X AI	1	3.0	$0.614	0/1	44.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 44.5s
#38	Claude Opus 4.6 medium	Anthropic	1	3.0	$2.053	0/1	63.2s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 63.2s
#41	DeepSeek V4 Pro high	DeepSeek	1	3.0	$0.157	0/1	34.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.157 प्रतिसाद वेळ (सरासरी) 34.0s

←

1 2 3 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स