सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: कुल लागत ↑.

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Owl Alpha 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.38s
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.50s
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 37.4s
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 37.0s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 1.06s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 2.71s
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 306ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.25s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 778ms
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 692ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 588ms
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 2.32s
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 794ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 8.94s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 3.89s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल