डोमेन-विशिष्ट x गलत उत्तर रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

412

सबसे अधिक प्रभावित मॉडल

Muse Spark 1.1 3

विफलता के कारण

गलत उत्तर412 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

198/198

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 464ms

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल