सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Qwen3.7 Max 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#76	MiMo-V2.5 medium	Xiaomi	1	3.0	$0.063	0/1	51.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.063 प्रतिक्रिया समय (औसत) 51.3s
#77	Mimo V2 PRO medium	Xiaomi	1	3.0	$0.333	0/1	82.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 82.7s
#78	gpt-oss-120b medium	OpenAI	1	3.0	$0.013	0/1	26.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 26.5s
#79	GPT-5 Nano medium	OpenAI	1	3.0	$0.081	0/1	20.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 20.1s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 108.4s
#81	Qwen3.6 27B medium	Qwen	1	3.0	$0.440	0/1	81.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.440 प्रतिक्रिया समय (औसत) 81.0s
#82	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.026	0/1	1.35s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 1.35s
#84	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.018	0/1	814ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 814ms
#85	Gemini 3.1 Flash Lite low	Google	1	3.0	$0.028	0/1	1.46s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.028 प्रतिक्रिया समय (औसत) 1.46s
#86	Hy3 preview low	Tencent	1	3.0	$0.018	0/1	41.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 41.7s
#87	Nemotron 3 Super medium	NVIDIA	1	3.0	$0.021	0/1	55.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 55.3s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 90.1s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 177.4s
#90	GPT-5.5 none	OpenAI	1	3.0	$0.231	0/1	5.01s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 5.01s
#92	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.019	0/1	1.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 1.96s

←

1 4 5 6 9

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल