सूचनांचे पालन केले नाही अपयश क्रमवारी

कोणत्या AI मॉडेल्सना सूचनांचे पालन केले नाही सर्वाधिक वेळा येतो ते पाहा, म्हणजे निवडण्यापूर्वी विश्वासार्हतेचे धोके लक्षात येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

246

सर्वाधिक प्रभावित मॉडेल

Granite 4.1 8B 4

श्रेणी

कोडी सोडवणे श्रेणीत90 Samanya Buddhimatta श्रेणीत78 अँटी-एआय युक्त्या श्रेणीत33 सूचनांचे पालन श्रेणीत19 कोडिंग श्रेणीत16 टूल कॉलिंग श्रेणीत8 डोमेन-विशिष्ट श्रेणीत1 संयुक्त श्रेणीत1

141/141

क्रमांक	मॉडेल	कंपनी	सूचनांचे पालन केले नाही संख्या	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#152	Owl Alpha medium	Openrouter	2	5.6	$0.000	8/21	11.9s
एकूण चाचण्या 21 चुकीच्या चाचण्या 13 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 11.9s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
एकूण चाचण्या 21 चुकीच्या चाचण्या 13 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.44s
#102	LongCat 2.0 high	Meituan	2	6.6	$0.469	9/22	148.7s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 148.7s
#127	gpt-oss-120b medium	OpenAI	3	6.1	$0.019	9/22	21.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	1	6.1	$0.046	9/22	1.75s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 1.75s
#134	GPT-5 Nano medium	OpenAI	2	6.1	$0.114	9/22	54.9s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 54.9s
#185	Ring-2.6-1T none	Inclusionai	2	4.8	$0.026	9/22	55.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 13 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 55.1s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
एकूण चाचण्या 18 चुकीच्या चाचण्या 10 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 9.69s
#190	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
एकूण चाचण्या 18 चुकीच्या चाचण्या 10 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 10.3s
#50	DeepSeek V4 Pro high	DeepSeek	2	7.7	$0.200	10/22	79.1s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 79.1s
#81	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 99.0s
#82	Mercury 2 medium	Inception	3	7.0	$0.093	10/22	2.72s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	2	6.9	$0.096	10/22	11.6s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 11.6s
#96	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 100.3s
#105	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	10/22	106.3s
एकूण चाचण्या 22 चुकीच्या चाचण्या 12 एकूण खर्च $0.779 प्रतिसाद वेळ (सरासरी) 106.3s

सूचनांचे पालन केले नाही अपयशे

मॉडेल फिल्टर करा

सूचनांचे पालन केले नाही संख्या नुसार शीर्ष मॉडेल्स

सूचनांचे पालन केले नाही संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स