सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.075 प्रतिक्रिया समय (औसत) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.012 प्रतिक्रिया समय (औसत) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 1.63s

←

1 5 6 7 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल