एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Mini 1

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#80	Seed-2.0-Mini medium	Bytedance Seed	1	6.6	$0.101	2/4	74.7s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.101 प्रतिक्रिया समय (औसत) 74.7s
#77	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.600 प्रतिक्रिया समय (औसत) 51.4s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 45.8s
#102	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 42.0s
#172	MiniMax M2.7 medium	Minimax	1	7.9	$0.163	2/4	40.3s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 40.3s
#143	Gemini 3.1 Flash Lite high	Google	1	8.7	$2.044	3/4	37.2s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 37.2s
#204	Qwen3.5-9B medium	Qwen	1	5.1	$0.036	1/4	34.4s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 34.4s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	2/4	32.8s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 32.8s
#45	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.042	3/4	28.5s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 28.5s
#46	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.200 प्रतिक्रिया समय (औसत) 25.7s
#128	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 25.5s
#171	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.5s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 20.2s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 18.0s
#194	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 15.0s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल