डोमेन-विशिष्ट x चुकीचे उत्तर क्रमवारी

डोमेन-विशिष्ट मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

421

सर्वाधिक प्रभावित मॉडेल

Muse Spark 1.1 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर421 वेळ संपला43 अतिरिक्त फॉरमॅटिंग17 उत्तर नाही8 API त्रुटी7 सूचनांचे पालन केले नाही1

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

202/202

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.584 प्रतिसाद वेळ (सरासरी) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.604 प्रतिसाद वेळ (सरासरी) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.234 प्रतिसाद वेळ (सरासरी) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.200 प्रतिसाद वेळ (सरासरी) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.138 प्रतिसाद वेळ (सरासरी) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 8.05s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स