कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3 PRO Preview 3.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.012 प्रतिक्रिया समय (औसत) 1.39s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.017 प्रतिक्रिया समय (औसत) 1.41s
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.028 प्रतिक्रिया समय (औसत) 1.53s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.122 प्रतिक्रिया समय (औसत) 1.62s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.006 प्रतिक्रिया समय (औसत) 1.63s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 1.69s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.79s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.79s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 1.80s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.80s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 1.96s
#57	Mercury 2 medium	Inception	8.2	7.5	$0.058	2/3	2.04s
कुल टेस्ट 3 गलत टेस्ट 1 कुल लागत $0.058 प्रतिक्रिया समय (औसत) 2.04s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 2.05s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.15s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
कुल टेस्ट 3 गलत टेस्ट 3 कुल लागत $0.011 प्रतिक्रिया समय (औसत) 2.22s

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल