सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.104 प्रतिक्रिया समय (औसत) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.031 प्रतिक्रिया समय (औसत) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 1.06s

←

1 7 8 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल