एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Lite 4

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 395ms
#168	MiMo-V2.5 none	Xiaomi	4	3.5	$0.025	0/4	2.19s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 2.19s
#169	Qwen3.5-9B none	Qwen	4	3.1	$0.021	0/4	1.71s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.71s
#170	GLM 5 Turbo none	Z.ai	4	3.0	$0.047	0/4	2.84s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 2.84s
#180	GPT-5.4 Nano none	OpenAI	4	3.5	$0.041	0/4	1.18s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.18s
#183	Trinity Large Preview none	Arcee AI	4	3.1	$0.008	0/4	2.07s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 2.07s
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 483ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 597ms
#196	Hunter Alpha none	OpenRouter	4	3.5	$0.000	0/4	3.81s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.81s
#200	MiMo-V2-Flash none	Xiaomi	4	3.2	$0.025	0/4	1.19s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	3	5.2	$0.231	1/4	2.63s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 2.63s
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.090 प्रतिक्रिया समय (औसत) 788ms
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	3	4.8	$0.073	1/4	1.91s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 1.91s
#111	LongCat 2.0 none	Meituan	3	4.8	$0.044	1/4	2.87s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 2.87s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	3	4.8	$0.122	1/4	1.88s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.88s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल