अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 4

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#132	GPT-5.6 Terra none	OpenAI	3	4.8	$0.349	1/4	942ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 942ms
#138	Kimi K2.6 none	Moonshot AI	3	4.6	$0.184	1/4	1.39s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.184 प्रतिसाद वेळ (सरासरी) 1.39s
#141	GLM 5 none	Z.ai	3	4.8	$0.041	1/4	2.37s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 2.37s
#142	Qwen3.5-122B-A10B none	Qwen	3	4.8	$0.247	1/4	1.59s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.247 प्रतिसाद वेळ (सरासरी) 1.59s
#145	GLM 5V Turbo none	Z.ai	3	4.8	$0.052	1/4	3.13s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.13s
#146	Owl Alpha medium	Openrouter	3	4.8	$0.000	1/4	3.97s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 3.97s
#148	Owl Alpha none	Openrouter	3	3.4	$0.000	0/4	2.78s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.78s
#154	MiMo-V2.5-Pro none	Xiaomi	3	3.3	$0.068	0/4	2.67s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 2.67s
#157	Mimo V2 Omni none	Xiaomi	3	3.6	$0.021	0/4	1.63s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 1.63s
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 901ms
#164	Inkling none	Thinkingmachines	3	4.8	$0.147	1/4	1.43s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 1.43s
#167	Mistral Small 4 medium	Mistral	3	5.6	$0.096	1/4	2.67s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 2.67s
#174	GPT-4o-mini none	OpenAI	3	4.8	$0.010	1/4	1.34s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 1.34s
#176	GLM 4.7 Flash none	Z.ai	3	5.2	$0.016	1/4	5.51s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 5.51s
#177	Nemotron 3 Super none	NVIDIA	3	4.8	$0.008	1/4	4.46s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 4.46s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स