अँटी-एआय युक्त्या x चुकीचे उत्तर क्रमवारी

अँटी-एआय युक्त्या मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

293

सर्वाधिक प्रभावित मॉडेल

Seed-2.0-Lite 4

अयशस्वी होण्याची कारणे

चुकीचे उत्तर293 सूचनांचे पालन केले नाही33 अतिरिक्त फॉरमॅटिंग20 API त्रुटी14 उत्तर नाही4 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

140/140

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#211	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 4 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 534ms
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
एकूण चाचण्या 4 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 584ms
#5	GPT-5.6 Sol low	OpenAI	1	8.3	$0.971	3/4	2.60s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 2.60s
#8	GPT-5.6 Sol high	OpenAI	1	8.7	$1.234	3/4	3.39s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 3.39s
#16	GPT-5.3-Codex medium	OpenAI	1	8.7	$0.920	3/4	4.16s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 4.16s
#18	Claude Opus 4.7 medium	Anthropic	1	8.3	$1.477	3/4	1.85s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $1.477 प्रतिसाद वेळ (सरासरी) 1.85s
#21	GPT-5.4 medium	OpenAI	1	8.3	$1.533	3/4	4.11s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 4.11s
#24	GPT-5.2 medium	OpenAI	1	6.5	$0.951	2/4	7.81s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.951 प्रतिसाद वेळ (सरासरी) 7.81s
#28	Gemini 2.5 Flash medium	Google	1	8.4	$0.643	3/4	6.30s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 6.30s
#29	GPT-5 Mini medium	OpenAI	1	7.1	$0.237	2/4	13.9s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 13.9s
#30	Muse Spark 1.1 high	Meta	1	7.5	$1.694	2/4	8.60s
एकूण चाचण्या 4 चुकीच्या चाचण्या 2 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 8.60s
#34	GPT-5.2 Chat none	OpenAI	1	8.7	$0.604	3/4	3.40s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 3.40s
#38	GPT-5.6 Terra high	OpenAI	1	8.3	$1.055	3/4	2.54s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 2.54s
#39	Seed-2.0-Lite medium	Bytedance Seed	1	8.3	$0.234	3/4	18.0s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 18.0s
#43	GPT-5.6 Terra medium	OpenAI	1	8.3	$0.676	3/4	2.22s
एकूण चाचण्या 4 चुकीच्या चाचण्या 1 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 2.22s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

अँटी-एआय युक्त्या: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स