सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

Gemini 3.5 Flash 1

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
एकूण चाचण्या 22 चुकीच्या चाचण्या 14 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 36.8s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
एकूण चाचण्या 21 चुकीच्या चाचण्या 13 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.44s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.55s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
एकूण चाचण्या 16 चुकीच्या चाचण्या 3 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
एकूण चाचण्या 22 चुकीच्या चाचण्या 16 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 9.12s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 4.62s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 16 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 18.3s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
एकूण चाचण्या 22 चुकीच्या चाचण्या 17 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.99s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
एकूण चाचण्या 22 चुकीच्या चाचण्या 16 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 9.15s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
एकूण चाचण्या 19 चुकीच्या चाचण्या 10 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 14.7s
#195	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
एकूण चाचण्या 22 चुकीच्या चाचण्या 18 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 829ms
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
एकूण चाचण्या 18 चुकीच्या चाचण्या 12 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.19s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स