डोमेन-विशिष्ट x चुकीचे उत्तर क्रमवारी

डोमेन-विशिष्ट मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

421

सर्वाधिक प्रभावित मॉडेल

Muse Spark 1.1 3

अयशस्वी होण्याची कारणे

चुकीचे उत्तर421 वेळ संपला43 अतिरिक्त फॉरमॅटिंग17 उत्तर नाही8 API त्रुटी7 सूचनांचे पालन केले नाही1

श्रेणी

डोमेन-विशिष्ट421 अँटी-एआय युक्त्या293 कोडिंग259 कोडी सोडवणे204 सामान्य ज्ञान172 संयुक्त69 Samanya Buddhimatta62 सूचनांचे पालन61 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

202/202

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.971 प्रतिसाद वेळ (सरासरी) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.316 प्रतिसाद वेळ (सरासरी) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.234 प्रतिसाद वेळ (सरासरी) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.253 प्रतिसाद वेळ (सरासरी) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.116 प्रतिसाद वेळ (सरासरी) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $4.137 प्रतिसाद वेळ (सरासरी) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.707 प्रतिसाद वेळ (सरासरी) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.920 प्रतिसाद वेळ (सरासरी) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $3.478 प्रतिसाद वेळ (सरासरी) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.533 प्रतिसाद वेळ (सरासरी) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.643 प्रतिसाद वेळ (सरासरी) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.237 प्रतिसाद वेळ (सरासरी) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.694 प्रतिसाद वेळ (सरासरी) 67.4s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डोमेन-विशिष्ट: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स