कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3 PRO Preview 3.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.649 प्रतिसाद वेळ (सरासरी) 11.3s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.821 प्रतिसाद वेळ (सरासरी) 12.5s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.582 प्रतिसाद वेळ (सरासरी) 12.6s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 13.0s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.034 प्रतिसाद वेळ (सरासरी) 13.4s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.760 प्रतिसाद वेळ (सरासरी) 13.7s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.008 प्रतिसाद वेळ (सरासरी) 14.3s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 14.4s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 14.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $0.907 प्रतिसाद वेळ (सरासरी) 15.0s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $1.107 प्रतिसाद वेळ (सरासरी) 15.3s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 0 एकूण खर्च $3.165 प्रतिसाद वेळ (सरासरी) 15.6s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.924 प्रतिसाद वेळ (सरासरी) 15.6s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 3 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 17.1s
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.550 प्रतिसाद वेळ (सरासरी) 17.3s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स