सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 114.1s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल