कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 14.5s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 147.3s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.63s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 55.3s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.683 प्रतिक्रिया समय (औसत) 183.9s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 2.64s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.505 प्रतिक्रिया समय (औसत) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.750 प्रतिक्रिया समय (औसत) 31.4s
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $2.044 प्रतिक्रिया समय (औसत) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
कुल टेस्ट 1 गलत टेस्ट 0 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.27s
#171	Mercury 2 none	Inception	3.4	4.6	$0.011	0/3	1.03s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 1.03s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.303 प्रतिक्रिया समय (औसत) 188.6s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 14.3s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल