सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

Granite 4.1 8B 4

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#120	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 84.8s
#149	Gemini 3.1 Flash Lite high	Google	3	5.6	$2.044	10/18	62.0s
एकूण चाचण्या 18 चुकीच्या चाचण्या 8 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 62.0s
#115	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
एकूण चाचण्या 21 चुकीच्या चाचण्या 9 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
एकूण चाचण्या 21 चुकीच्या चाचण्या 9 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 20.1s
#27	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 11.5s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.041	13/22	49.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 49.7s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 6.88s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 4.27s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 4.91s
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 47.4s
#94	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 58.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	1	6.5	$0.646	13/22	16.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.646 प्रतिसाद वेळ (सरासरी) 16.7s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स