पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

Mistral Small 4 2

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.022 प्रतिक्रिया समय (औसत) 399ms
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 473ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 532ms
#189	Mercury 2 none	Inception	3	3.1	$0.030	0/3	535ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.030 प्रतिक्रिया समय (औसत) 535ms
#191	Grok 4.20 Beta none	X AI	1	7.7	$0.087	2/3	586ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 586ms
#118	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 604ms
#201	Granite 4.1 8B none	IBM Granite	2	3.2	$0.007	0/3	608ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 608ms
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 621ms
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 650ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 744ms
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 790ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.095 प्रतिक्रिया समय (औसत) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 868ms

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल