एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Lite 4

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.067 प्रतिक्रिया समय (औसत) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.647 प्रतिक्रिया समय (औसत) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.197 प्रतिक्रिया समय (औसत) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.387 प्रतिक्रिया समय (औसत) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.482 प्रतिक्रिया समय (औसत) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 4.02s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल