एंटी-एआई ट्रिक्स x गलत उत्तर रैंकिंग

देखें कि एंटी-एआई ट्रिक्स में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

293

सबसे अधिक प्रभावित मॉडल

GPT-5.6 Sol 1

विफलता के कारण

गलत उत्तर293 निर्देशों का पालन नहीं किया33 अतिरिक्त फॉर्मेटिंग20 API त्रुटि14 कोई उत्तर नहीं4 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

140/140

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#3	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 2.60s
#5	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $1.234 प्रतिक्रिया समय (औसत) 3.39s
#13	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.920 प्रतिक्रिया समय (औसत) 4.16s
#15	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $1.477 प्रतिक्रिया समय (औसत) 1.85s
#18	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $1.533 प्रतिक्रिया समय (औसत) 4.11s
#21	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.951 प्रतिक्रिया समय (औसत) 7.81s
#25	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 6.30s
#26	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $0.237 प्रतिक्रिया समय (औसत) 13.9s
#27	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 8.60s
#30	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 3.40s
#34	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 2.54s
#35	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.234 प्रतिक्रिया समय (औसत) 18.0s
#39	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 2.22s
#40	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
कुल टेस्ट 4 गलत टेस्ट 2 कुल लागत $2.057 प्रतिक्रिया समय (औसत) 2.98s
#44	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
कुल टेस्ट 4 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 2.99s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

एंटी-एआई ट्रिक्स: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल