कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.288 प्रतिसाद वेळ (सरासरी) 42.9s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 44.4s
#24	GLM 5 Turbo medium	Z.ai	8.2	8.4	$0.323	2/3	45.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.323 प्रतिसाद वेळ (सरासरी) 45.9s
#89	Qwen3.6 35B A3B medium	Qwen	7.7	6.7	$0.146	2/3	50.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.146 प्रतिसाद वेळ (सरासरी) 50.5s
#27	DeepSeek V4 Flash high	DeepSeek	7.8	8.3	$0.027	2/3	50.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 50.6s
#177	GLM 4.7 Flash medium	Z.ai	3.2	4.3	$0.054	0/3	55.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 55.3s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.526 प्रतिसाद वेळ (सरासरी) 57.9s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.080 प्रतिसाद वेळ (सरासरी) 58.9s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 59.6s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $3.679 प्रतिसाद वेळ (सरासरी) 59.8s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 63.4s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 70.3s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.554 प्रतिसाद वेळ (सरासरी) 73.0s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.228 प्रतिसाद वेळ (सरासरी) 74.3s
#160	Cobuddy medium	Baidu	3.7	4.9	$0.000	0/3	79.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 79.2s

←

1 9 10 11 13

→

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स