सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 180.9s
#60	Qwen3.7 Plus none	Qwen	1	3.0	$0.023	0/1	1.21s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 1.21s
#61	GLM 5.2 none	Z.ai	1	3.0	$0.076	0/1	3.41s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.076 प्रतिक्रिया समय (औसत) 3.41s
#62	MiMo-V2-Flash medium	Xiaomi	1	3.0	$0.043	0/1	1.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 1.96s
#64	GLM 5.1 medium	Z.ai	1	3.0	$0.292	0/1	29.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.292 प्रतिक्रिया समय (औसत) 29.4s
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 341.8s
#66	Gemini 3.5 Flash none	Google	1	2.8	$1.079	0/1	4.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 4.87s
#67	Gemini 3 Flash Preview none	Google	1	3.0	$0.025	0/1	1.07s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.07s
#68	Qwen3.7 Max none	Qwen	1	3.0	$0.054	0/1	856ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 856ms
#70	Qwen3.5-Flash medium	Qwen	1	3.0	$0.080	0/1	49.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.080 प्रतिक्रिया समय (औसत) 49.0s
#71	Gemini 3.5 Flash minimal	Google	1	3.0	$0.108	0/1	1.76s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.108 प्रतिक्रिया समय (औसत) 1.76s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 113.9s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 234.2s
#74	Hy3 preview high	Tencent	1	3.0	$0.059	0/1	47.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.059 प्रतिक्रिया समय (औसत) 47.7s
#75	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.146	0/1	32.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.146 प्रतिक्रिया समय (औसत) 32.9s

←

1 3 4 5 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल