कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 97.1s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.317 प्रतिक्रिया समय (औसत) 125.3s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.106 प्रतिक्रिया समय (औसत) 92.1s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.609 प्रतिक्रिया समय (औसत) 109.9s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.554 प्रतिक्रिया समय (औसत) 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.310 प्रतिक्रिया समय (औसत) 180.7s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $1.270 प्रतिक्रिया समय (औसत) 7.58s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.343 प्रतिक्रिया समय (औसत) 9.56s
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.081 प्रतिक्रिया समय (औसत) 41.6s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.679 प्रतिक्रिया समय (औसत) 13.0s
#26	Grok 4.5 medium	X AI	7.6	8.3	$1.696	2/3	155.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.696 प्रतिक्रिया समय (औसत) 155.7s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.852 प्रतिक्रिया समय (औसत) 9.14s
#79	Kimi K2.7 Code medium	Moonshot AI	7.6	7.0	$0.581	2/3	146.7s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.581 प्रतिक्रिया समय (औसत) 146.7s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.146 प्रतिक्रिया समय (औसत) 50.5s
#95	Qwen3.6 27B medium	Qwen	7.7	6.6	$0.336	2/3	143.0s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.336 प्रतिक्रिया समय (औसत) 143.0s

←

1 9 10 11 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल