कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Qwen3.6 Flash 5.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 9.57s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 100.9s
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 38.1s
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
एकूण चाचण्या 0 चुकीच्या चाचण्या 0 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 0ms
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 108.6s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.554 प्रतिसाद वेळ (सरासरी) 73.0s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 180.7s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 160.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.294 प्रतिसाद वेळ (सरासरी) 153.1s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.496 प्रतिसाद वेळ (सरासरी) 7.19s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 33.3s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 4.09s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 125.3s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.071 प्रतिसाद वेळ (सरासरी) 3.81s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स