संयुक्त x चुकीचे उत्तर क्रमवारी

संयुक्त मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

अयशस्वी होण्याची कारणे

अवैध टूल कॉल91 चुकीचे उत्तर68 उत्तर नाही29 API त्रुटी26 वेळ संपला5 अतिरिक्त फॉरमॅटिंग1 सूचनांचे पालन केले नाही1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

63/63

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 10.2s
#139	GPT-5.4 none	OpenAI	2	3.0	$0.397	0/2	9.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 9.26s
#165	Mistral Small 4 none	Mistral	2	3.0	$0.022	0/2	7.44s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 7.44s
#177	Nemotron 3 Super none	NVIDIA	2	3.0	$0.008	0/2	18.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 18.2s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 2.56s
#20	Grok 4.5 low	X AI	1	6.5	$0.935	1/2	12.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 12.8s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 66.0s
#59	Qwen3.7 Max none	Qwen	1	6.5	$0.197	1/2	37.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 37.2s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	1/2	8.37s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 8.37s
#87	GPT-5.5 none	OpenAI	1	6.5	$0.544	1/2	8.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 8.90s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.085 प्रतिसाद वेळ (सरासरी) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.476 प्रतिसाद वेळ (सरासरी) 183.1s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.231 प्रतिसाद वेळ (सरासरी) 61.6s
#103	Qwen3.5-27B none	Qwen	1	6.4	$0.090	1/2	39.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.090 प्रतिसाद वेळ (सरासरी) 39.4s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 160.6s

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

संयुक्त: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स