कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#52	MiniMax M3 medium	Minimax	6.1	7.6	$0.131	1/3	144.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.131 प्रतिसाद वेळ (सरासरी) 144.7s
#37	Qwen3.6 Plus medium	Qwen	6.1	7.8	$0.294	1/3	153.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.294 प्रतिसाद वेळ (सरासरी) 153.1s
#45	Qwen3.5-122B-A10B medium	Qwen	6.0	7.7	$0.588	1/3	114.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.588 प्रतिसाद वेळ (सरासरी) 114.5s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.457 प्रतिसाद वेळ (सरासरी) 63.4s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 10.7s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 94.2s
#61	DeepSeek V3.2 medium	DeepSeek	6.0	7.5	$0.042	1/3	248.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 248.7s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.013 प्रतिसाद वेळ (सरासरी) 38.4s
#47	Grok 4.3 medium	X AI	5.9	7.7	$0.614	1/3	41.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.614 प्रतिसाद वेळ (सरासरी) 41.2s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.401 प्रतिसाद वेळ (सरासरी) 206.6s
#121	Qwen3.5-27B none	Qwen	5.8	5.9	$0.015	1/3	1.80s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 1.80s
#65	Gemini 3 Flash Preview low	Google	5.8	7.4	$0.111	1/3	6.00s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.111 प्रतिसाद वेळ (सरासरी) 6.00s
#49	Claude Opus 4.6 medium	Anthropic	5.7	7.7	$2.053	1/3	30.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $2.053 प्रतिसाद वेळ (सरासरी) 30.1s
#39	Claude Sonnet 4.6 medium	Anthropic	5.7	7.8	$1.418	1/3	33.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.418 प्रतिसाद वेळ (सरासरी) 33.3s
#44	Kimi K2.6 medium	Moonshot AI	5.7	7.8	$0.888	1/3	214.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.888 प्रतिसाद वेळ (सरासरी) 214.4s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स