कोडी सोडवणे x सूचनांचे पालन केले नाही क्रमवारी

कोडी सोडवणे मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Mistral Small 4 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर201 सूचनांचे पालन केले नाही90 API त्रुटी12 अतिरिक्त फॉरमॅटिंग8 वेळ संपला5 उत्तर नाही3

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

86/86

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 399ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 532ms
#201	Granite 4.1 8B none	IBM Granite	1	3.2	$0.007	0/3	608ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 608ms
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 621ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 744ms
#193	Elephant Alpha none	Openrouter	1	4.2	$0.000	0/3	807ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 868ms
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 1.00s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 1.07s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 1.20s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.21s

1 2 3 4 5 6

→

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

कोडी सोडवणे: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स