पहेली समाधान x गलत उत्तर रैंकिंग

देखें कि पहेली समाधान में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

201

सबसे अधिक प्रभावित मॉडल

GPT-5.6 Sol 1

विफलता के कारण

गलत उत्तर201 निर्देशों का पालन नहीं किया90 API त्रुटि12 अतिरिक्त फॉर्मेटिंग8 समय समाप्त5 कोई उत्तर नहीं3

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

142/142

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#3	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.971 प्रतिक्रिया समय (औसत) 3.44s
#4	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.316 प्रतिक्रिया समय (औसत) 2.98s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.642 प्रतिक्रिया समय (औसत) 2.38s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 2.98s
#25	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.643 प्रतिक्रिया समय (औसत) 3.18s
#30	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.604 प्रतिक्रिया समय (औसत) 4.10s
#34	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 5.45s
#38	GLM 5.2 medium	Z.ai	1	8.2	$0.222	2/3	13.1s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.222 प्रतिक्रिया समय (औसत) 13.1s
#39	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.676 प्रतिक्रिया समय (औसत) 3.78s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.059 प्रतिक्रिया समय (औसत) 4.71s
#44	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.017 प्रतिक्रिया समय (औसत) 14.6s
#47	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.286 प्रतिक्रिया समय (औसत) 49.9s
#48	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.097 प्रतिक्रिया समय (औसत) 18.3s
#50	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.352 प्रतिक्रिया समय (औसत) 4.04s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 5.30s

1 2 10

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

पहेली समाधान: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल