संयुक्त x गलत उत्तर रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

63/63

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#164	Inkling none	Thinkingmachines	1	2.9	$0.147	0/2	25.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 25.7s
#166	Qwen3 Coder Next none	Qwen	1	3.0	$0.025	0/2	30.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 30.9s
#167	Mistral Small 4 medium	Mistral	1	3.0	$0.096	0/2	32.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 32.4s
#168	MiMo-V2.5 none	Xiaomi	1	3.0	$0.025	0/2	28.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 28.9s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 4.89s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 6.32s
#180	GPT-5.4 Nano none	OpenAI	1	3.0	$0.041	0/2	14.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 14.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 73.0s
#183	Trinity Large Preview none	Arcee AI	1	1.5	$0.008	0/1	8.91s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 8.91s
#187	Qwen3 Coder Next medium	Qwen	1	3.0	$0.032	0/2	14.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 14.6s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.81s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.70s
#196	Hunter Alpha none	OpenRouter	1	1.5	$0.000	0/1	15.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 15.2s
#198	Laguna Xs.2 medium	Poolside	1	1.5	$0.015	0/1	15.9s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 15.9s
#199	Hy3 preview none	Tencent	1	1.5	$0.003	0/1	35.8s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 35.8s

←

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल