कोडिंग x गलत उत्तर रैंकिंग

AI BENCHY श्रेणी विफलताएँ

देखें कि कोडिंग में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

230

सबसे अधिक प्रभावित मॉडल

North Mini Code 3

विफलता के कारण

गलत उत्तर230 API त्रुटि43 समय समाप्त25 कोई उत्तर नहीं18 निर्देशों का पालन नहीं किया16 अतिरिक्त फॉर्मेटिंग12

श्रेणियाँ

डोमेन-विशिष्ट368 एंटी-एआई ट्रिक्स270 कोडिंग230 पहेली समाधान173 सामान्य ज्ञान150 संयुक्त58 निर्देश पालन56 Samanya Buddhimatta49 डेटा पार्सिंग और निष्कर्षण36 टूल कॉलिंग3

134/134

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#124	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 320.4s
#61	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.042	1/3	248.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.042 प्रतिक्रिया समय (औसत) 248.7s
#63	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 220.5s
#76	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $1.148 प्रतिक्रिया समय (औसत) 206.2s
#166	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 188.6s
#87	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 183.9s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 180.7s
#35	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.536 प्रतिक्रिया समय (औसत) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.175 प्रतिक्रिया समय (औसत) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.696 प्रतिक्रिया समय (औसत) 155.7s
#37	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.294 प्रतिक्रिया समय (औसत) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 146.5s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 125.3s
#45	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.588 प्रतिक्रिया समय (औसत) 114.5s
#66	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 109.9s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

कोडिंग: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल