Samanya Buddhimatta x गलत उत्तर रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

59/59

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.928 प्रतिक्रिया समय (औसत) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 25.3s

1 2 3 4

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल