Samanya Buddhimatta x गलत उत्तर रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

North Mini Code 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर62 API त्रुटि12 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

62/62

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#177	North Mini Code none	Cohere	1	3.9	$0.000	0/1	34.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 34.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 25.3s
#143	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 25.1s
#156	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.042	0/1	23.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 23.7s
#96	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 22.5s
#52	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.4s
#200	GLM 4.7 Flash medium	Z.ai	1	3.6	$0.166	0/1	18.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 18.1s
#102	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 17.0s
#64	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 16.4s
#185	Ring-2.6-1T none	Inclusionai	1	4.3	$0.026	0/1	15.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 15.6s
#135	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 13.5s
#25	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 12.8s
#208	Grok Build 0.1 none	X AI	1	4.3	$0.547	0/1	12.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 12.5s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	1	5.0	$0.067	0/1	12.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 12.0s
#212	gpt-oss-120b none	OpenAI	1	4.8	$0.010	0/1	10.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 10.8s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल