सामान्य ज्ञान x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि सामान्य ज्ञान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

133

सबसे अधिक प्रभावित मॉडल

Kimi K2.7 Code 1

विफलता के कारण

गलत उत्तर133 API त्रुटि13 कोई उत्तर नहीं8

श्रेणियाँ

डोमेन-विशिष्ट325 एंटी-एआई ट्रिक्स250 कोडिंग201 पहेली समाधान154 सामान्य ज्ञान133 निर्देश पालन54 संयुक्त53 Samanya Buddhimatta36 डेटा पार्सिंग और निष्कर्षण35 टूल कॉलिंग2

133/133

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#65	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.583	0/1	341.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.583 प्रतिक्रिया समय (औसत) 341.8s
#73	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/1	234.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 234.2s
#59	Gemma 4 26B A4B medium	Google	1	3.0	$0.045	0/1	180.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 180.9s
#89	Qwen3.5-35B-A3B medium	Qwen	1	3.0	$0.401	0/1	177.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.401 प्रतिक्रिया समय (औसत) 177.4s
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 133.6s
#35	Kimi K2.6 medium	Moonshot AI	1	3.0	$0.889	0/1	130.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.889 प्रतिक्रिया समय (औसत) 130.3s
#47	Qwen3.6 Flash medium	Qwen	1	3.0	$0.288	0/1	122.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.288 प्रतिक्रिया समय (औसत) 122.9s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 114.1s
#72	Ring-2.6-1T medium	Inclusionai	1	3.0	$0.033	0/1	113.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 113.9s
#80	Step 3.5 Flash medium	Stepfun	1	3.0	$0.070	0/1	108.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 108.4s
#28	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	3.0	$0.310	0/1	103.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 103.8s
#33	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	3.0	$0.317	0/1	92.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 92.6s
#25	Qwen3.7 Plus medium	Qwen	1	3.0	$0.177	0/1	91.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 91.1s
#88	Gemma 4 31B medium	Google	1	3.0	$0.033	0/1	90.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 90.1s
#29	Qwen3.5-27B medium	Qwen	1	3.0	$0.536	0/1	85.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 85.1s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल