कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 18.7s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.107 प्रतिक्रिया समय (औसत) 19.1s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.740 प्रतिक्रिया समय (औसत) 19.5s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 21.4s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 22.0s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.548 प्रतिक्रिया समय (औसत) 22.7s
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.115 प्रतिक्रिया समय (औसत) 23.0s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.069 प्रतिक्रिया समय (औसत) 23.6s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 24.6s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.158 प्रतिक्रिया समय (औसत) 26.5s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 27.1s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.376 प्रतिक्रिया समय (औसत) 27.4s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.159 प्रतिक्रिया समय (औसत) 27.6s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 27.9s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $2.053 प्रतिक्रिया समय (औसत) 30.1s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल