कोडिंग मॉडल रैंकिंग

AI BENCHY श्रेणी

देखें कि कोडिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.

दिखाए गए मॉडल

औसत कोडिंग स्कोर

5.7

सर्वश्रेष्ठ मॉडल

Gemini 3.1 Flash Lite Preview 0.0

विफलता के कारण

विफलता कारण गलत उत्तर के साथ230 विफलता कारण API त्रुटि के साथ43 विफलता कारण समय समाप्त के साथ25 विफलता कारण कोई उत्तर नहीं के साथ18 विफलता कारण निर्देशों का पालन नहीं किया के साथ16 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ12

189/189

रैंक	मॉडल	कंपनी	कोडिंग स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.068 प्रतिक्रिया समय (औसत) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.071 प्रतिक्रिया समय (औसत) 3.81s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.316 प्रतिक्रिया समय (औसत) 5.19s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.539 प्रतिक्रिया समय (औसत) 3.29s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.023 प्रतिक्रिया समय (औसत) 2.15s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 1.35s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.028 प्रतिक्रिया समय (औसत) 1.53s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.225 प्रतिक्रिया समय (औसत) 1.39s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.231 प्रतिक्रिया समय (औसत) 1.35s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.141 प्रतिक्रिया समय (औसत) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
कुल टेस्ट 3 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 736ms

कोडिंग रैंकिंग

मॉडल फ़िल्टर करें

कोडिंग स्कोर के अनुसार शीर्ष मॉडल

कोडिंग स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल