कोडी सोडवणे x सूचनांचे पालन केले नाही क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Qwen3.5-27B 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#58	Qwen3.5-27B medium	Qwen	1	8.2	$1.627	2/3	59.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 59.6s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 56.8s
#143	Gemini 3.1 Flash Lite high	Google	2	5.7	$2.044	1/3	50.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 50.8s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	7.7	$2.310	2/3	46.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 46.7s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 43.2s
#16	Muse Spark 1.1 medium	Meta	1	7.9	$1.357	2/3	42.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 42.5s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.078 प्रतिसाद वेळ (सरासरी) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 33.7s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 31.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.2	$0.042	2/3	26.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 26.1s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 24.9s
#171	North Mini Code none	Cohere	2	3.5	$0.000	0/3	24.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 24.4s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 23.7s

1 2 3 4 5 6

→

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स