कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $2.310 प्रतिक्रिया समय (औसत) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
कुल टेस्ट 0 गलत टेस्ट 0 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 0ms
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 38.1s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 1.22s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.033 प्रतिक्रिया समय (औसत) 35.6s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 9.57s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.79s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 1.14s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 14.4s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.070 प्रतिक्रिया समय (औसत) 258.4s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.93s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 4.56s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 100.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.045 प्रतिक्रिया समय (औसत) 272.5s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.385 प्रतिक्रिया समय (औसत) 0ms

1 2 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल