कोडिंग मॉडेल क्रमवारी

AI BENCHY श्रेणी

कोडिंग मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा.

दाखवलेली मॉडेल्स

सरासरी कोडिंग स्कोअर

5.7

सर्वोत्तम मॉडेल

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह230 अयशस्वी होण्याचे कारण API त्रुटी सह43 अयशस्वी होण्याचे कारण वेळ संपला सह25 अयशस्वी होण्याचे कारण उत्तर नाही सह18 अयशस्वी होण्याचे कारण सूचनांचे पालन केले नाही सह16 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह12

189/189

क्रमांक	मॉडेल	कंपनी	कोडिंग स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.081 प्रतिसाद वेळ (सरासरी) 41.6s
#46	Claude Opus 4.8 low	Anthropic	6.6	7.7	$1.270	1/3	7.58s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $1.270 प्रतिसाद वेळ (सरासरी) 7.58s
#48	GPT-5.6 Terra low	OpenAI	6.6	7.7	$0.343	1/3	9.56s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.343 प्रतिसाद वेळ (सरासरी) 9.56s
#34	Qwen3.5 Plus 2026-02-15 medium	Qwen	6.6	8.0	$0.310	1/3	180.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.310 प्रतिसाद वेळ (सरासरी) 180.7s
#32	GLM 5.2 high	Z.ai	6.4	8.0	$0.554	1/3	73.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.554 प्रतिसाद वेळ (सरासरी) 73.0s
#66	Grok 4.20 medium	X AI	6.3	7.3	$0.609	1/3	109.9s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.609 प्रतिसाद वेळ (सरासरी) 109.9s
#64	MiMo-V2.5-Pro medium	Xiaomi	6.2	7.4	$0.106	1/3	92.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.106 प्रतिसाद वेळ (सरासरी) 92.1s
#42	Qwen3.5 Plus 2026-04-20 medium	Qwen	6.2	7.8	$0.317	1/3	125.3s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.317 प्रतिसाद वेळ (सरासरी) 125.3s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 97.1s
#35	Qwen3.5-27B medium	Qwen	6.2	7.9	$0.536	1/3	160.7s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.536 प्रतिसाद वेळ (सरासरी) 160.7s
#30	Qwen3.7 Plus medium	Qwen	6.1	8.2	$0.177	1/3	108.6s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.177 प्रतिसाद वेळ (सरासरी) 108.6s
#38	GPT-5.6 Terra medium	OpenAI	6.1	7.8	$0.496	1/3	7.19s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.496 प्रतिसाद वेळ (सरासरी) 7.19s
#59	GPT-5.4 Nano medium	OpenAI	6.1	7.5	$0.107	1/3	19.1s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.107 प्रतिसाद वेळ (सरासरी) 19.1s
#53	DeepSeek V4 Pro high	DeepSeek	6.1	7.6	$0.157	1/3	243.0s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.157 प्रतिसाद वेळ (सरासरी) 243.0s
#56	Kimi K2.5 medium	Moonshot AI	6.1	7.5	$0.348	1/3	217.5s
एकूण चाचण्या 3 चुकीच्या चाचण्या 2 एकूण खर्च $0.348 प्रतिसाद वेळ (सरासरी) 217.5s

कोडिंग क्रमवारी

मॉडेल फिल्टर करा

कोडिंग स्कोअर नुसार शीर्ष मॉडेल्स

कोडिंग स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स