कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.550 प्रतिक्रिया समय (औसत) 17.3s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.679 प्रतिक्रिया समय (औसत) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 146.5s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.210 प्रतिक्रिया समय (औसत) 44.4s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.393 प्रतिक्रिया समय (औसत) 9.82s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 27.4s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 34.7s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.667 प्रतिक्रिया समय (औसत) 84.4s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.158 प्रतिक्रिया समय (औसत) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.526 प्रतिक्रिया समय (औसत) 57.9s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.96s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.179 प्रतिक्रिया समय (औसत) 41.0s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.341 प्रतिक्रिया समय (औसत) 9.46s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल