संयुक्त x चुकीचे उत्तर क्रमवारी

संयुक्त मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

अयशस्वी होण्याची कारणे

अवैध टूल कॉल91 चुकीचे उत्तर68 उत्तर नाही29 API त्रुटी26 वेळ संपला5 अतिरिक्त फॉरमॅटिंग1 सूचनांचे पालन केले नाही1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

63/63

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 6.23s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 64.7s
#111	LongCat 2.0 none	Meituan	1	6.5	$0.044	1/2	28.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 28.4s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.249 प्रतिसाद वेळ (सरासरी) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 243.6s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 109.7s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 128.3s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 21.1s

←

1 2 3 4 5

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

संयुक्त: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स