डोमेन-विशिष्ट x गलत उत्तर रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

412

सबसे अधिक प्रभावित मॉडल

Muse Spark 1.1 3

विफलता के कारण

गलत उत्तर412 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

198/198

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.046 प्रतिक्रिया समय (औसत) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.738 प्रतिक्रिया समय (औसत) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 1.33s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल