निर्देशों का पालन नहीं किया विफलता रैंकिंग

देखें कि किन AI मॉडलों में निर्देशों का पालन नहीं किया सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

245

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

पहेली समाधान श्रेणी में90 Samanya Buddhimatta श्रेणी में78 एंटी-एआई ट्रिक्स श्रेणी में33 निर्देश पालन श्रेणी में18 कोडिंग श्रेणी में16 टूल कॉलिंग श्रेणी में8 डोमेन-विशिष्ट श्रेणी में1 संयुक्त श्रेणी में1

140/140

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#9	Gemini 3.5 Flash medium	Google	1	9.1	$0.642	19/22	8.20s
कुल टेस्ट 22 गलत टेस्ट 3 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 8.20s
#163	Gemini 3.1 Flash Lite Preview high	Google	1	5.3	$2.310	13/16	68.1s
कुल टेस्ट 16 गलत टेस्ट 3 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 68.1s
#131	Grok 4.20 Beta medium	X AI	1	6.0	$0.750	14/18	9.75s
कुल टेस्ट 18 गलत टेस्ट 4 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 9.75s
#12	Grok 4.5 high	X AI	1	8.9	$1.707	17/22	76.5s
कुल टेस्ट 22 गलत टेस्ट 5 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 76.5s
#13	GPT-5.3-Codex medium	OpenAI	2	8.9	$0.920	16/22	17.0s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 17.0s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
कुल टेस्ट 21 गलत टेस्ट 6 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 33.5s
#16	Muse Spark 1.1 medium	Meta	2	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#18	GPT-5.4 medium	OpenAI	2	8.5	$1.533	15/22	23.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 23.1s
#25	Gemini 2.5 Flash medium	Google	1	8.2	$0.643	15/22	21.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 21.2s
#28	Inkling high	Thinkingmachines	1	8.0	$1.006	15/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 64.2s
#37	Qwen3.6 Plus medium	Qwen	1	7.8	$0.405	15/22	43.1s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 43.1s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.323 प्रतिक्रिया समय (औसत) 23.0s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	14/21	16.3s
कुल टेस्ट 21 गलत टेस्ट 7 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 16.3s
#21	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 22.6s

1 2 10

→

निर्देशों का पालन नहीं किया विफलताएँ

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल