सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Qwen3.7 Max 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.075 प्रतिसाद वेळ (सरासरी) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.012 प्रतिसाद वेळ (सरासरी) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 1.63s

←

1 5 6 7 9

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स