एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Lite 4

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.397 प्रतिक्रिया समय (औसत) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 1.80s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 2.83s
#155	Kimi K2.5 none	Moonshot AI	4	3.6	$0.127	0/4	6.24s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 6.24s
#161	Qwen3.6 35B A3B none	Qwen	4	3.6	$0.061	0/4	2.10s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 2.10s
#162	Ling-2.6-1T none	Inclusionai	4	3.4	$0.016	0/4	6.55s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 6.55s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल