Samanya Buddhimatta x चुकीचे उत्तर क्रमवारी

Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Grok 4.5 1

अयशस्वी होण्याची कारणे

सूचनांचे पालन केले नाही78 चुकीचे उत्तर59 API त्रुटी12 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

59/59

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.935 प्रतिसाद वेळ (सरासरी) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.928 प्रतिसाद वेळ (सरासरी) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.515 प्रतिसाद वेळ (सरासरी) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.055 प्रतिसाद वेळ (सरासरी) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.676 प्रतिसाद वेळ (सरासरी) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.017 प्रतिसाद वेळ (सरासरी) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.097 प्रतिसाद वेळ (सरासरी) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.352 प्रतिसाद वेळ (सरासरी) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.519 प्रतिसाद वेळ (सरासरी) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.387 प्रतिसाद वेळ (सरासरी) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.482 प्रतिसाद वेळ (सरासरी) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 25.3s

1 2 3 4

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

Samanya Buddhimatta: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स