कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.1 Flash Lite Preview 0.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
एकूण चाचण्या 0 चुकीच्या चाचण्या 0 एकूण खर्च $2.310 प्रतिसाद वेळ (सरासरी) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
एकूण चाचण्या 0 चुकीच्या चाचण्या 0 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 0ms
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 38.1s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.057 प्रतिसाद वेळ (सरासरी) 1.22s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.033 प्रतिसाद वेळ (सरासरी) 35.6s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 9.57s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 1.79s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 1.14s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 14.4s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.070 प्रतिसाद वेळ (सरासरी) 258.4s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.009 प्रतिसाद वेळ (सरासरी) 2.93s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 4.56s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.036 प्रतिसाद वेळ (सरासरी) 100.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.045 प्रतिसाद वेळ (सरासरी) 272.5s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.385 प्रतिसाद वेळ (सरासरी) 0ms

1 2 13

→

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स