कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

North Mini Code 4.5

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 4.96s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.141 प्रतिक्रिया समय (औसत) 4.61s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 4.56s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 4.16s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 4.16s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 3.81s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.287 प्रतिक्रिया समय (औसत) 3.67s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.29s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 3.24s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.052 प्रतिक्रिया समय (औसत) 3.13s
#116	Qwen3.6 Max Preview none	Qwen	3.8	6.0	$0.075	0/3	3.12s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.075 प्रतिक्रिया समय (औसत) 3.12s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.93s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 2.84s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 2.83s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल