कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.012 प्रतिसाद वेळ (सरासरी) 1.39s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.052 प्रतिसाद वेळ (सरासरी) 3.13s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 2.65s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.122 प्रतिसाद वेळ (सरासरी) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.038 प्रतिसाद वेळ (सरासरी) 913ms
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.031 प्रतिसाद वेळ (सरासरी) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 3.24s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.924 प्रतिसाद वेळ (सरासरी) 15.6s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.79s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 18.7s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.258 प्रतिसाद वेळ (सरासरी) 10.4s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 31.4s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 59.6s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स