अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

DeepSeek V4 Pro 2

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#82	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.02s
#116	Seed-2.0-Lite none	Bytedance Seed	4	3.0	$0.066	0/4	2.43s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.066 प्रतिसाद वेळ (सरासरी) 2.43s
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 582ms
#124	Qwen3.6 Flash none	Qwen	4	3.1	$0.062	0/4	1.63s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.062 प्रतिसाद वेळ (सरासरी) 1.63s
#125	Qwen3.5-Flash none	Qwen	4	3.5	$0.073	0/4	1.32s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.073 प्रतिसाद वेळ (सरासरी) 1.32s
#127	Qwen3.5-35B-A3B none	Qwen	4	3.4	$0.106	0/4	1.43s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.43s
#129	Nemotron 3 Ultra none	NVIDIA	4	3.5	$0.095	0/4	2.35s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 2.35s
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.095 प्रतिसाद वेळ (सरासरी) 929ms
#139	GPT-5.4 none	OpenAI	4	3.2	$0.397	0/4	1.21s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.397 प्रतिसाद वेळ (सरासरी) 1.21s
#147	Mimo V2 PRO none	Xiaomi	4	3.5	$0.045	0/4	1.80s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 1.80s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.78s
#150	DeepSeek V4 Flash none	DeepSeek	4	3.0	$0.044	0/4	20.2s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.044 प्रतिसाद वेळ (सरासरी) 20.2s
#151	GLM 5.1 none	Z.ai	4	4.0	$0.164	0/4	2.11s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 2.11s
#152	Qwen3.6 27B none	Qwen	4	3.8	$0.087	0/4	2.83s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 2.83s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.67s

1 2 10

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स