सामान्य ज्ञान x कोई उत्तर नहीं रैंकिंग

देखें कि सामान्य ज्ञान में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Claude Opus 4.8 1

विफलता के कारण

गलत उत्तर168 API त्रुटि13 कोई उत्तर नहीं13

श्रेणियाँ

संयुक्त29 कोडिंग18 सामान्य ज्ञान13 डेटा पार्सिंग और निष्कर्षण8 डोमेन-विशिष्ट8 एंटी-एआई ट्रिक्स4 पहेली समाधान3 टूल कॉलिंग2 निर्देश पालन2

13/13

रैंक	मॉडल	कंपनी	कोई उत्तर नहीं संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#66	Claude Opus 4.8 none	Anthropic	1	3.0	$1.166	0/1	3.41s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 3.41s
#112	Claude Sonnet 5 none	Anthropic	1	3.0	$0.548	0/1	4.31s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 4.31s
#41	Claude Opus 4.8 low	Anthropic	1	3.0	$2.077	0/1	5.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 5.48s
#14	Claude Opus 4.8 medium	Anthropic	1	3.0	$1.931	0/1	6.14s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 6.14s
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	19.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 19.7s
#17	Claude Fable 5 medium	Anthropic	1	3.0	$3.478	0/1	25.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 25.6s
#38	GLM 5.2 medium	Z.ai	1	3.0	$0.222	0/1	34.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.222 प्रतिक्रिया समय (औसत) 34.2s
#12	Grok 4.5 high	X AI	1	3.0	$1.707	0/1	60.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 60.6s
#97	LongCat 2.0 high	Meituan	1	3.0	$0.469	0/1	99.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 99.4s
#47	MiniMax M3 medium	Minimax	1	3.0	$0.286	0/1	100.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 100.8s
#29	Step 3.7 Flash medium	Stepfun	1	3.0	$0.515	0/1	114.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 114.0s
#67	Step 3.7 Flash low	Stepfun	1	3.0	$0.454	0/1	124.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 124.8s
#86	Step 3.7 Flash high	Stepfun	1	3.0	$1.207	0/1	149.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 149.3s

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

सामान्य ज्ञान: कोई उत्तर नहीं

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल