कोडी सोडवणे x चुकीचे उत्तर क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

204

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-Flash 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर204 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

145/145

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.71s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स