सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

245

सर्वाधिक प्रभावित मॉडेल

Gemini 3.5 Flash 1

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत18 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

140/140

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 26.4s
#30	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 7.65s
#31	GLM 5.2 high	Z.ai	1	8.0	$0.970	14/22	62.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.970 प्रतिसाद वेळ (सरासरी) 62.7s
#35	Seed-2.0-Lite medium	Bytedance Seed	2	7.9	$0.234	14/22	48.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 48.5s
#88	Gemini 3.5 Flash minimal	Google	1	6.8	$0.300	14/22	2.65s
एकूण चाचण्या 22 चुकीच्या चाचण्या 8 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 2.65s
#24	Muse Spark 1.1 low	Meta	2	8.3	$0.647	13/22	11.5s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 11.5s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	13/22	34.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $3.059 प्रतिसाद वेळ (सरासरी) 34.3s
#45	DeepSeek V4 Flash high	DeepSeek	2	7.7	$0.042	13/22	49.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 49.7s
#54	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 6.88s
#58	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 111.9s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.61s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 4.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 4.91s
#73	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 47.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	6.7	$0.746	13/22	58.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 58.1s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स