एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Lite 4

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.184 प्रतिक्रिया समय (औसत) 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 4.46s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल