सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

Step 3.5 Flash 3

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#41	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 7 एकूण खर्च $0.405 प्रतिसाद वेळ (सरासरी) 43.1s
#178	MiniMax M2.7 medium	Minimax	5	5.0	$0.163	5/22	41.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 41.3s
#140	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 11 एकूण खर्च $0.683 प्रतिसाद वेळ (सरासरी) 41.2s
#194	Cobuddy medium	Baidu	3	4.7	$0.000	7/21	39.9s
एकूण चाचण्या 21 चुकीच्या चाचण्या 14 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 39.9s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
एकूण चाचण्या 12 चुकीच्या चाचण्या 6 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 39.0s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 36.8s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 34.3s
#88	MiMo-V2.5-Pro medium	Xiaomi	2	6.9	$0.187	12/22	33.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 33.9s
#46	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
एकूण चाचण्या 21 चुकीच्या चाचण्या 6 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 33.5s
#107	MiMo-V2.5 medium	Xiaomi	1	6.5	$0.082	12/22	32.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 32.2s
#30	Muse Spark 1.1 high	Meta	2	8.1	$1.694	12/22	31.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 31.5s
#177	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 18 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 29.9s
#79	Grok 4.20 medium	X AI	2	7.1	$0.777	12/22	29.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 29.5s
#208	Grok Build 0.1 none	X AI	2	4.0	$0.547	7/19	28.7s
एकूण चाचण्या 19 चुकीच्या चाचण्या 12 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 28.7s
#29	GPT-5 Mini medium	OpenAI	3	8.1	$0.237	12/22	27.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 27.6s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स