निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

246

सबसे अधिक प्रभावित मॉडल

Step 3.5 Flash 3

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में19 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

141/141

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#168	Ling-2.6-1T none	Inclusionai	2	5.3	$0.016	4/22	8.58s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 8.58s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	1	5.6	$0.048	8/22	8.42s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 8.42s
#12	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
कुल टेस्ट 22 गलत टेस्ट 3 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 8.20s
#67	Claude Sonnet 4.6 none	Anthropic	1	7.3	$0.661	12/22	8.12s
कुल टेस्ट 22 गलत टेस्ट 10 कुल लागत $0.661 प्रतिक्रिया समय (औसत) 8.12s
#34	GPT-5.2 Chat none	OpenAI	1	8.0	$0.604	14/22	7.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 7.65s
#162	Gemma 4 26B A4B none	Google	2	5.5	$0.015	8/22	7.64s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 7.64s
#58	GPT-5.3 Chat none	OpenAI	2	7.5	$0.571	13/22	6.88s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 6.88s
#118	Claude Sonnet 5 none	Anthropic	1	6.3	$0.548	8/22	6.04s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 6.04s
#183	Nemotron 3 Super none	NVIDIA	2	4.9	$0.008	5/22	5.97s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 5.97s
#167	Qwen3.6 35B A3B none	Qwen	2	5.3	$0.061	4/22	5.52s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 5.52s
#121	Gemma 4 31B none	Google	1	6.2	$0.021	10/22	5.34s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 5.34s
#129	Inkling low	Thinkingmachines	2	6.1	$0.187	10/22	5.15s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 5.15s
#123	GPT-5.6 Luna low	OpenAI	1	6.2	$0.249	10/22	5.04s
कुल टेस्ट 22 गलत टेस्ट 12 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 5.04s
#70	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	13/22	4.91s
कुल टेस्ट 22 गलत टेस्ट 9 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 4.91s
#109	Qwen3.5-27B none	Qwen	2	6.5	$0.090	8/22	4.76s
कुल टेस्ट 22 गलत टेस्ट 14 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 4.76s

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल