कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Qwen3.6 Flash 5.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.027 प्रतिक्रिया समय (औसत) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.038 प्रतिक्रिया समय (औसत) 913ms
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.100 प्रतिक्रिया समय (औसत) 101.9s
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.031 प्रतिक्रिया समय (औसत) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 3.24s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 143.8s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.667 प्रतिक्रिया समय (औसत) 84.4s
#8	Gemini 3.5 Flash low	Google	7.8	9.2	$0.349	2/3	6.71s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $1.054 प्रतिक्रिया समय (औसत) 40.2s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.582 प्रतिक्रिया समय (औसत) 12.6s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $3.679 प्रतिक्रिया समय (औसत) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.960 प्रतिक्रिया समय (औसत) 146.5s

←

1 9 10 11 13

→

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल