डोमेन-विशिष्ट x गलत उत्तर रैंकिंग

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

421

सबसे अधिक प्रभावित मॉडल

Muse Spark 1.1 3

विफलता के कारण

गलत उत्तर421 समय समाप्त43 अतिरिक्त फॉर्मेटिंग17 कोई उत्तर नहीं8 API त्रुटि7 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

202/202

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.253 प्रतिक्रिया समय (औसत) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $4.137 प्रतिक्रिया समय (औसत) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 67.4s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डोमेन-विशिष्ट: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल