अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 4

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	5.3	$0.067	1/4	2.68s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.067 प्रतिसाद वेळ (सरासरी) 2.68s
#193	Qwen3 Coder Next medium	Qwen	3	3.5	$0.032	0/4	8.64s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 8.64s
#198	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 705ms
#203	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 501ms
#209	Grok 4.1 Fast none	X AI	3	3.2	$0.008	0/4	1.07s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.07s
#216	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 471ms
#27	Muse Spark 1.1 low	Meta	2	7.9	$0.647	2/4	4.36s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.647 प्रतिसाद वेळ (सरासरी) 4.36s
#50	DeepSeek V4 Pro high	DeepSeek	2	5.7	$0.200	1/4	25.7s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 25.7s
#51	MiniMax M3 medium	Minimax	2	5.5	$0.286	1/4	14.9s
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.286 प्रतिसाद वेळ (सरासरी) 14.9s
#56	Kimi K2.7 Code medium	Moonshot AI	2	7.3	$0.740	2/4	11.6s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 11.6s
#63	Qwen3.7 Max none	Qwen	2	6.5	$0.197	2/4	1.08s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.197 प्रतिसाद वेळ (सरासरी) 1.08s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.9	$0.387	2/4	4.20s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 4.20s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	2	7.0	$0.482	2/4	3.17s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 3.17s
#75	Qwen3.7 Plus none	Qwen	2	6.5	$0.106	2/4	1.38s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 1.38s
#86	DeepSeek V4 Pro none	DeepSeek	2	3.2	$0.096	0/4	4.02s
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 4.02s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स