कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

204

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर204 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

145/145

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	1.86s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.86s
#207	Granite 4.1 8B none	IBM Granite	2	3.2	$0.007	0/3	608ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 608ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	1.40s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.40s
#216	LFM2-24B-A2B none	Liquid	2	3.8	$0.001	0/3	1.78s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 1.78s
#5	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 3.44s
#7	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 2.98s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.642 प्रतिसाद वेळ (सरासरी) 2.38s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.922 प्रतिसाद वेळ (सरासरी) 2.98s
#28	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 3.18s
#29	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 15.2s
#31	Gemini 3.5 Flash-Lite high	Google	1	8.2	$0.584	2/3	1.85s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 1.85s
#32	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.006 प्रतिसाद वेळ (सरासरी) 10.7s
#34	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 4.10s
#35	GLM 5.2 high	Z.ai	1	6.0	$0.817	1/3	33.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.817 प्रतिसाद वेळ (सरासरी) 33.7s
#38	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 5.45s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स