सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Qwen3.7 Max 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#76	MiMo-V2.5 medium	Xiaomi	1	3.0	$0.063	0/1	51.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.063 प्रतिसाद वेळ (सरासरी) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	1	3.0	$0.333	0/1	82.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 82.7s
#78	gpt-oss-120b medium	OpenAI	1	3.0	$0.013	0/1	26.5s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 26.5s
#79	GPT-5 Nano medium	OpenAI	1	3.0	$0.081	0/1	20.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.081 प्रतिसाद वेळ (सरासरी) 20.1s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 108.4s
#81	Qwen3.6 27B medium	Qwen	1	3.0	$0.440	0/1	81.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.440 प्रतिसाद वेळ (सरासरी) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.026	0/1	1.35s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.018	0/1	814ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 814ms
#85	Gemini 3.1 Flash Lite low	Google	1	3.0	$0.028	0/1	1.46s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.028 प्रतिसाद वेळ (सरासरी) 1.46s
#86	Hy3 preview low	Tencent	1	3.0	$0.018	0/1	41.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.021	0/1	55.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 55.3s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 177.4s
#90	GPT-5.5 none	OpenAI	1	3.0	$0.231	0/1	5.01s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 5.01s
#92	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.019	0/1	1.96s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 1.96s

←

1 4 5 6 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स