कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.649 प्रतिक्रिया समय (औसत) 11.3s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.821 प्रतिक्रिया समय (औसत) 12.5s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 12.6s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 13.0s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.034 प्रतिक्रिया समय (औसत) 13.4s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.760 प्रतिक्रिया समय (औसत) 13.7s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 14.3s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 14.4s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 14.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $0.907 प्रतिक्रिया समय (औसत) 15.0s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $1.107 प्रतिक्रिया समय (औसत) 15.3s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
कुल टेस्ट 3 गलत टेस्ट 0 कुल लागत $3.165 प्रतिक्रिया समय (औसत) 15.6s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.924 प्रतिक्रिया समय (औसत) 15.6s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 17.1s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.550 प्रतिक्रिया समय (औसत) 17.3s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल