संयुक्त x गलत उत्तर रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

63/63

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.935 प्रतिक्रिया समय (औसत) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 160.6s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल