Samanya Buddhimatta x गलत उत्तर रैंकिंग

देखें कि Samanya Buddhimatta में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 1

विफलता के कारण

निर्देशों का पालन नहीं किया78 गलत उत्तर59 API त्रुटि12 समय समाप्त4

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

59/59

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.164 प्रतिक्रिया समय (औसत) 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.524 प्रतिक्रिया समय (औसत) 1.52s

1 2 3 4

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

Samanya Buddhimatta: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल