Samanya Buddhimatta x निर्देशों का पालन नहीं किया रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Grok 4.5 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

पहेली समाधान90 Samanya Buddhimatta78 एंटी-एआई ट्रिक्स33 निर्देश पालन18 कोडिंग16 टूल कॉलिंग8 डोमेन-विशिष्ट1 संयुक्त1

78/78

रैंक	मॉडल	कंपनी	निर्देशों का पालन नहीं किया संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#12	Grok 4.5 high	X AI	1	4.7	$1.707	0/1	9.82s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.707 प्रतिक्रिया समय (औसत) 9.82s
#13	GPT-5.3-Codex medium	OpenAI	1	4.6	$0.920	0/1	4.87s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 4.87s
#18	GPT-5.4 medium	OpenAI	1	4.7	$1.533	0/1	4.92s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 4.92s
#21	GPT-5.2 medium	OpenAI	1	3.7	$0.951	0/1	4.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 4.32s
#23	Claude Sonnet 5 medium	Anthropic	1	4.8	$0.922	0/1	4.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 4.32s
#25	Gemini 2.5 Flash medium	Google	1	4.8	$0.643	0/1	4.86s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 4.86s
#26	GPT-5 Mini medium	OpenAI	1	4.5	$0.237	0/1	13.5s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 13.5s
#30	GPT-5.2 Chat none	OpenAI	1	4.4	$0.604	0/1	3.20s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 3.20s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	6.7	$0.234	0/1	18.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 18.2s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.405 प्रतिक्रिया समय (औसत) 27.1s
#42	GLM 5 medium	Z.ai	1	6.1	$0.307	0/1	14.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 14.7s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 25.2s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 33.3s
#53	GPT-5.4 Nano medium	OpenAI	1	4.5	$0.138	0/1	4.15s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.138 प्रतिक्रिया समय (औसत) 4.15s
#54	GPT-5.3 Chat none	OpenAI	1	4.6	$0.571	0/1	1.99s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.571 प्रतिक्रिया समय (औसत) 1.99s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: निर्देशों का पालन नहीं किया

मॉडल फ़िल्टर करें

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल