Samanya Buddhimatta x गलत उत्तर रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

59/59

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.207 प्रतिक्रिया समय (औसत) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.151 प्रतिक्रिया समय (औसत) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 615ms

←

1 2 3 4

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल