कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 0ms
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 623ms
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 736ms
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.013 प्रतिक्रिया समय (औसत) 831ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.005 प्रतिक्रिया समय (औसत) 850ms
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 901ms
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.038 प्रतिक्रिया समय (औसत) 913ms
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 924ms

1 2 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल