अँटी-एआय युक्त्या x सूचनांचे पालन केले नाही क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Ring-2.6-1T 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

कोडी सोडवणे90 Samanya Buddhimatta78 अँटी-एआय युक्त्या33 सूचनांचे पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

32/32

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#179	Ring-2.6-1T none	Inclusionai	1	9.2	$0.026	3/4	43.3s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 43.3s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 40.3s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 32.8s
#190	MiniMax M2.5 medium	Minimax	1	7.9	$0.340	2/4	20.8s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 20.8s
#194	GLM 4.7 Flash medium	Z.ai	1	4.7	$0.166	1/4	15.0s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 15.0s
#47	MiniMax M3 medium	Minimax	1	5.5	$0.286	1/4	14.9s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 14.9s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 13.9s
#178	Ling-2.6-flash none	Inclusionai	1	6.8	$0.002	2/4	11.8s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 11.8s
#68	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 11.6s
#199	Hy3 preview none	Tencent	2	4.8	$0.003	1/4	11.1s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 11.1s
#93	GLM 5V Turbo medium	Z.ai	1	7.2	$0.457	2/4	10.8s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 10.8s
#121	gpt-oss-120b medium	OpenAI	1	6.7	$0.019	2/4	10.2s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 10.2s
#29	Step 3.7 Flash medium	Stepfun	1	8.7	$0.515	3/4	9.65s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 9.65s
#187	Qwen3 Coder Next medium	Qwen	1	3.5	$0.032	0/4	8.64s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 8.64s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 8.60s

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: सूचनांचे पालन केले नाही

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स