Samanya Buddhimatta x चुकीचे उत्तर क्रमवारी

Samanya Buddhimatta मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Granite 4.1 8B 1

अयशस्वी होण्याची कारणे

सूचनांचे पालन केले नाही78 चुकीचे उत्तर59 API त्रुटी12 वेळ संपला4

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

59/59

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.022 प्रतिसाद वेळ (सरासरी) 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.164 प्रतिसाद वेळ (सरासरी) 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.147 प्रतिसाद वेळ (सरासरी) 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.046 प्रतिसाद वेळ (सरासरी) 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.142 प्रतिसाद वेळ (सरासरी) 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.621 प्रतिसाद वेळ (सरासरी) 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.524 प्रतिसाद वेळ (सरासरी) 1.52s

1 2 3 4

→

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

Samanya Buddhimatta: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स