डोमेन-विशिष्ट x गलत उत्तर रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

421

सबसे अधिक प्रभावित मॉडल

Muse Spark 1.1 3

विफलता के कारण

गलत उत्तर421 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

202/202

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.584 प्रतिक्रिया समय (औसत) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 8.05s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल