सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

Step 3.5 Flash 3

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#33	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 26.4s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 25.9s
#19	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $1.357 प्रतिसाद वेळ (सरासरी) 25.0s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.9	$0.467	11/22	24.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 24.0s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
एकूण चाचण्या 19 चुकीच्या चाचण्या 10 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 23.8s
#21	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 23.1s
#98	GLM 5V Turbo medium	Z.ai	1	6.7	$0.457	11/21	23.1s
एकूण चाचण्या 21 चुकीच्या चाचण्या 10 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 23.1s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
एकूण चाचण्या 21 चुकीच्या चाचण्या 7 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 23.0s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 22.6s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 9 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 22.2s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 21.9s
#212	gpt-oss-120b none	OpenAI	2	3.7	$0.010	6/19	21.6s
एकूण चाचण्या 19 चुकीच्या चाचण्या 13 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 21.6s
#28	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 21.2s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
एकूण चाचण्या 21 चुकीच्या चाचण्या 9 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 20.1s
#144	Kimi K2.6 none	Moonshot AI	3	5.8	$0.184	7/22	19.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 15 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 19.6s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स