कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.1 Flash Lite Preview 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#155	Qwen3.5-9B none	Qwen	3.9	5.1	$0.006	0/3	5.60s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.006 प्रतिसाद वेळ (सरासरी) 5.60s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $1.148 प्रतिसाद वेळ (सरासरी) 206.2s
#118	GLM 5 none	Z.ai	4.0	6.0	$0.027	0/3	5.12s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.027 प्रतिसाद वेळ (सरासरी) 5.12s
#172	Elephant Alpha none	Openrouter	4.2	4.6	$0.000	0/3	1.39s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.39s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 17.1s
#123	Qwen3.5 Plus 2026-02-15 none	Qwen	4.3	5.8	$0.016	0/3	2.05s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 2.05s
#179	MiMo-V2-Flash none	Xiaomi	4.3	4.3	$0.025	0/3	2.64s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 2.64s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 219.8s
#161	GLM 4.7 Flash none	Z.ai	4.3	4.9	$0.004	0/3	2.54s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 2.54s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.017 प्रतिसाद वेळ (सरासरी) 1.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 623ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.021 प्रतिसाद वेळ (सरासरी) 2.75s
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.068 प्रतिसाद वेळ (सरासरी) 40.0s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 775ms
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 320.4s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स