सामान्य ज्ञान x चुकीचे उत्तर क्रमवारी

AI BENCHY श्रेणी अपयशे

सामान्य ज्ञान मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: एकूण खर्च ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

133

सर्वाधिक प्रभावित मॉडेल

Owl Alpha 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर133 API त्रुटी13 उत्तर नाही8

श्रेणी

डोमेन-विशिष्ट325 अँटी-एआय युक्त्या250 कोडिंग201 कोडी सोडवणे154 सामान्य ज्ञान133 सूचनांचे पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग आणि निष्कर्षण35 टूल कॉलिंग2

133/133

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.38s
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.50s
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 37.4s
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 37.0s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 1.06s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 2.71s
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 306ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 1.25s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 778ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 692ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 588ms
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 2.32s
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 794ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 8.94s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 3.89s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

सामान्य ज्ञान: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स