सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: स्कोअर ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

LFM2-24B-A2B 1

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#77	Grok 4.3 medium	X AI	2	7.1	$0.779	13/22	47.4s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 47.4s
#75	Qwen3.7 Plus none	Qwen	1	7.2	$0.106	11/22	12.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 11 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 12.1s
#72	Kimi K2.6 medium	Moonshot AI	2	7.2	$1.036	12/22	110.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 110.0s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.117 प्रतिसाद वेळ (सरासरी) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.3	$0.115	13/22	4.61s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.115 प्रतिसाद वेळ (सरासरी) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 8.12s
#62	Qwen3.5-27B medium	Qwen	2	7.4	$1.627	13/22	111.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $1.627 प्रतिसाद वेळ (सरासरी) 111.9s
#60	GPT-5.4 Mini medium	OpenAI	3	7.5	$0.756	12/22	25.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 25.9s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
एकूण चाचण्या 22 चुकीच्या चाचण्या 9 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 6.88s
#57	GPT-5.4 Nano medium	OpenAI	2	7.5	$0.138	12/22	13.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 13.2s
#56	Kimi K2.7 Code medium	Moonshot AI	1	7.5	$0.740	12/22	84.2s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 84.2s
#53	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
एकूण चाचण्या 21 चुकीच्या चाचण्या 7 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 23.0s
#51	MiniMax M3 medium	Minimax	2	7.6	$0.286	12/22	75.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 10 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 75.0s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.1s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स