सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#42	Grok Build 0.1 medium	X AI	1	3.0	$0.927	0/1	53.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.927 प्रतिक्रिया समय (औसत) 53.5s
#43	Kimi K2.5 medium	Moonshot AI	1	3.0	$0.348	0/1	83.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.348 प्रतिक्रिया समय (औसत) 83.9s
#44	Mercury 2 medium	Inception	1	3.0	$0.058	0/1	2.58s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.58s
#45	GPT-5.3 Chat none	OpenAI	1	3.0	$0.433	0/1	4.38s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 4.38s
#46	GPT-5.4 Nano medium	OpenAI	1	3.0	$0.107	0/1	4.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 4.81s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 122.9s
#48	DeepSeek V3.2 medium	DeepSeek	1	3.0	$0.044	0/1	84.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 84.0s
#49	Claude Opus 4.7 none	Anthropic	1	3.0	$0.505	0/1	1.46s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 1.46s
#50	Seed-2.0-Mini medium	Bytedance Seed	1	3.0	$0.044	0/1	56.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 56.8s
#51	MiMo-V2.5-Pro medium	Xiaomi	1	3.0	$0.106	0/1	12.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 12.5s
#53	Grok 4.20 medium	X AI	1	3.0	$0.609	0/1	63.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 63.5s
#54	Hy3 preview medium	Tencent	1	3.0	$0.021	0/1	39.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 39.9s
#55	Claude Sonnet 4.6 none	Anthropic	1	3.0	$0.316	0/1	4.67s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 4.67s
#56	GLM 5V Turbo medium	Z.ai	1	3.0	$0.457	0/1	41.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 41.0s
#58	DeepSeek V4 Pro none	DeepSeek	1	3.0	$0.034	0/1	5.76s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 5.76s

←

1 2 3 4 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल