संयुक्त x गलत उत्तर रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemini 3 Flash Preview 2

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

63/63

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#61	Gemini 3 Flash Preview low	Google	2	3.0	$0.177	0/2	10.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.177 प्रतिक्रिया समय (औसत) 10.2s
#89	Gemini 3 Flash Preview none	Google	1	3.8	$0.085	0/2	12.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.085 प्रतिक्रिया समय (औसत) 12.4s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.476 प्रतिक्रिया समय (औसत) 183.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.646 प्रतिक्रिया समय (औसत) 160.6s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.621 प्रतिक्रिया समय (औसत) 161.2s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 6.23s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 64.7s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 30.0s
#116	Seed-2.0-Lite none	Bytedance Seed	1	3.0	$0.066	0/2	25.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.066 प्रतिक्रिया समय (औसत) 25.6s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 61.2s
#120	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.047	0/2	7.75s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.047 प्रतिक्रिया समय (औसत) 7.75s
#122	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.046	0/2	9.49s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.046 प्रतिक्रिया समय (औसत) 9.49s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.073 प्रतिक्रिया समय (औसत) 243.6s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 128.3s

1 2 3 4 5

→

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल