एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

Seed-2.0-Lite 4

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट421 एंटी-एआई ट्रिक्स293 कोडिंग259 पहेली समाधान204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 निर्देश पालन61 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.544 प्रतिक्रिया समय (औसत) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
कुल टेस्ट 4 गलत टेस्ट 4 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
कुल टेस्ट 4 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 844ms

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल