अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 4

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.544 प्रतिसाद वेळ (सरासरी) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.300 प्रतिसाद वेळ (सरासरी) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.166 प्रतिसाद वेळ (सरासरी) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 844ms

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स