कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↓.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

Gemini 3.5 Flash 10.0

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#97	Gemini 3.1 Flash Lite high	Google	3.3	6.5	$2.044	1/1	137.6s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $2.044 प्रतिसाद वेळ (सरासरी) 137.6s
#156	Grok 4.20 Multi Agent Beta medium	X AI	3.3	5.0	$5.599	1/1	27.1s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 27.1s
#180	Grok Build 0.1 none	X AI	3.3	4.2	$0.547	1/1	21.4s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 21.4s
#187	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.3	3.5	$0.000	1/1	1.27s
एकूण चाचण्या 1 चुकीच्या चाचण्या 0 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.27s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.667 प्रतिसाद वेळ (सरासरी) 84.4s
#8	Gemini 3.5 Flash low	Google	7.8	9.2	$0.349	2/3	6.71s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.349 प्रतिसाद वेळ (सरासरी) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	7.9	9.2	$1.054	2/3	40.2s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.054 प्रतिसाद वेळ (सरासरी) 40.2s
#11	Gemini 3.5 Flash medium	Google	7.9	9.1	$0.582	2/3	12.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.582 प्रतिसाद वेळ (सरासरी) 12.6s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $3.679 प्रतिसाद वेळ (सरासरी) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.960 प्रतिसाद वेळ (सरासरी) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	7.6	8.7	$0.679	2/3	13.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.679 प्रतिसाद वेळ (सरासरी) 13.0s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.179 प्रतिसाद वेळ (सरासरी) 41.0s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $1.210 प्रतिसाद वेळ (सरासरी) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	8.0	8.5	$0.175	2/3	156.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.175 प्रतिसाद वेळ (सरासरी) 156.7s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
एकूण चाचण्या 3 चुकीच्या चाचण्या 1 एकूण खर्च $0.393 प्रतिसाद वेळ (सरासरी) 9.82s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स