कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $1.115 प्रतिसाद वेळ (सरासरी) 23.0s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.649 प्रतिसाद वेळ (सरासरी) 11.3s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.523 प्रतिसाद वेळ (सरासरी) 35.3s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.966 प्रतिसाद वेळ (सरासरी) 9.40s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.821 प्रतिसाद वेळ (सरासरी) 12.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.907 प्रतिसाद वेळ (सरासरी) 15.0s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $3.165 प्रतिसाद वेळ (सरासरी) 15.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.740 प्रतिसाद वेळ (सरासरी) 19.5s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $1.107 प्रतिसाद वेळ (सरासरी) 15.3s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.228 प्रतिसाद वेळ (सरासरी) 74.3s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.159 प्रतिसाद वेळ (सरासरी) 27.6s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.548 प्रतिसाद वेळ (सरासरी) 22.7s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.760 प्रतिसाद वेळ (सरासरी) 13.7s
#62	Claude Opus 4.7 none	Anthropic	3.3	7.4	$0.505	1/1	2.84s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.505 प्रतिसाद वेळ (सरासरी) 2.84s
#83	Grok 4.20 Beta medium	X AI	3.3	6.8	$0.750	1/1	31.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.750 प्रतिसाद वेळ (सरासरी) 31.4s

1 2 13

→

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स