कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Qwen3.6 Flash 5.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 320.4s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.75s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.287 प्रतिसाद वेळ (सरासरी) 3.67s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.069 प्रतिसाद वेळ (सरासरी) 23.6s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 4.96s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 17.1s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.41s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 1.69s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 2.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 623ms
#143	GPT-5.6 Luna none	OpenAI	3.8	5.3	$0.047	0/3	980ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.047 प्रतिसाद वेळ (सरासरी) 980ms
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 2.77s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 14.5s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स