एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

306

सबसे अधिक प्रभावित मॉडल

DeepSeek V4 Pro 2

विफलता के कारण

गलत उत्तर306 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि15 कोई उत्तर नहीं6 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट433 एंटी-एआई ट्रिक्स306 कोडिंग266 पहेली समाधान214 सामान्य ज्ञान176 संयुक्त71 Samanya Buddhimatta66 निर्देश पालन65 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग4

144/144

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.02s
#122	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 2.43s
#124	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 582ms
#130	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.63s
#131	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.32s
#133	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.43s
#135	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 2.35s
#142	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 929ms
#145	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.21s
#153	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 1.80s
#154	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#156	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 20.2s
#157	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 2.11s
#158	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 2.83s
#160	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.67s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल