कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.042 प्रतिसाद वेळ (सरासरी) 7.55s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.270 प्रतिसाद वेळ (सरासरी) 7.58s
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.031 प्रतिसाद वेळ (सरासरी) 8.77s
#29	GPT-5.6 Terra high	OpenAI	7.6	8.2	$0.852	2/3	9.14s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.852 प्रतिसाद वेळ (सरासरी) 9.14s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.966 प्रतिसाद वेळ (सरासरी) 9.40s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.341 प्रतिसाद वेळ (सरासरी) 9.46s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.343 प्रतिसाद वेळ (सरासरी) 9.56s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 9.57s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.393 प्रतिसाद वेळ (सरासरी) 9.82s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.258 प्रतिसाद वेळ (सरासरी) 10.4s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.433 प्रतिसाद वेळ (सरासरी) 10.5s
#167	Ling-2.6-1T none	Inclusionai	3.8	4.7	$0.005	0/3	10.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.005 प्रतिसाद वेळ (सरासरी) 10.6s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 10.7s
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.004 प्रतिसाद वेळ (सरासरी) 11.2s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 11.2s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स