कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.5 Flash 10.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.667 प्रतिक्रिया समय (औसत) 84.4s
#8	Gemini 3.5 Flash low	Google	7.8	9.2	$0.349	2/3	6.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.054 प्रतिक्रिया समय (औसत) 40.2s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 12.6s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.679 प्रतिक्रिया समय (औसत) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 13.0s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.179 प्रतिक्रिया समय (औसत) 41.0s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.210 प्रतिक्रिया समय (औसत) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.175 प्रतिक्रिया समय (औसत) 156.7s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.393 प्रतिक्रिया समय (औसत) 9.82s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल