निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 8.42s
#156	DeepSeek V4 Flash none	DeepSeek	1	5.6	$0.042	5/22	36.8s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 36.8s
#163	Mimo V2 Omni none	Xiaomi	1	5.5	$0.021	8/21	2.44s
कुल टेस्ट 21 गलत टेस्ट 13 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 2.44s
#166	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.55s
#169	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
कुल टेस्ट 16 गलत टेस्ट 3 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 68.1s
#170	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 3.50s
#171	Mistral Small 4 none	Mistral	1	5.1	$0.022	5/22	1.20s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 1.20s
#172	Qwen3 Coder Next none	Qwen	1	5.1	$0.025	5/22	9.12s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 9.12s
#174	MiMo-V2.5 none	Xiaomi	1	5.1	$0.025	5/22	4.62s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 4.62s
#179	DeepSeek V3.2 none	DeepSeek	1	5.0	$0.054	6/22	18.3s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 18.3s
#180	GPT-4o-mini none	OpenAI	1	5.0	$0.010	5/22	1.99s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.99s
#182	GLM 4.7 Flash none	Z.ai	1	4.9	$0.016	6/22	9.15s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 9.15s
#192	Laguna M.1 medium	Poolside	1	4.7	$0.033	9/19	14.7s
कुल टेस्ट 19 गलत टेस्ट 10 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 14.7s
#195	Mercury 2 none	Inception	1	4.6	$0.030	4/22	829ms
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 829ms
#197	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
कुल टेस्ट 18 गलत टेस्ट 12 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.19s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल