अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 4

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#44	Claude Sonnet 4.6 medium	Anthropic	1	6.5	$2.057	2/4	2.98s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $2.057 प्रतिसाद वेळ (सरासरी) 2.98s
#48	GPT-5.6 Luna high	OpenAI	1	8.3	$1.017	3/4	2.99s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 2.99s
#49	DeepSeek V4 Flash high	DeepSeek	1	8.3	$0.041	3/4	28.5s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 28.5s
#54	GPT-5.6 Luna medium	OpenAI	1	8.3	$0.352	3/4	2.52s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 2.52s
#57	GPT-5.4 Nano medium	OpenAI	1	8.3	$0.138	3/4	4.52s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 4.52s
#58	GPT-5.3 Chat none	OpenAI	1	6.7	$0.571	2/4	3.86s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.571 प्रतिसाद वेळ (सरासरी) 3.86s
#59	GPT-5.6 Terra low	OpenAI	1	8.3	$0.519	3/4	2.36s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 2.36s
#60	GPT-5.4 Mini medium	OpenAI	1	8.6	$0.756	3/4	4.05s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.756 प्रतिसाद वेळ (सरासरी) 4.05s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	8.2	$0.437	3/4	45.8s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.437 प्रतिसाद वेळ (सरासरी) 45.8s
#67	Claude Sonnet 4.6 none	Anthropic	1	4.8	$0.661	1/4	2.94s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.661 प्रतिसाद वेळ (सरासरी) 2.94s
#71	Step 3.7 Flash low	Stepfun	1	8.7	$0.454	3/4	4.02s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 4.02s
#72	Kimi K2.6 medium	Moonshot AI	1	7.0	$1.036	2/4	11.6s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $1.036 प्रतिसाद वेळ (सरासरी) 11.6s
#79	Grok 4.20 medium	X AI	1	8.2	$0.777	3/4	3.95s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.777 प्रतिसाद वेळ (सरासरी) 3.95s
#81	Kimi K2.5 medium	Moonshot AI	1	7.3	$0.600	2/4	51.4s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.600 प्रतिसाद वेळ (सरासरी) 51.4s
#82	Mercury 2 medium	Inception	1	6.9	$0.093	2/4	1.12s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.12s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स