संयुक्त x गलत उत्तर रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Laguna Xs.2 1

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

63/63

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#205	Laguna Xs.2 none	Poolside	1	1.5	$0.004	0/1	2.01s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 2.01s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 2.56s
#200	MiMo-V2-Flash none	Xiaomi	1	1.5	$0.025	0/1	2.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.87s
#203	Grok 4.1 Fast none	X AI	1	1.5	$0.008	0/1	3.33s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 3.33s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.70s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.81s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 4.89s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 4.98s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.96s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 6.22s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.23s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 6.32s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.51s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 6.58s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 6.68s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल