ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.1 Flash Lite Preview 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.287 زمن الاستجابة (المتوسط) 3.67s
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.22s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 2.22s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 109.6s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 42.9s
#67	Hy3 preview medium	Tencent	5.3	7.3	$0.018	1/3	31.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 31.4s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 99.8s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 27.9s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 143.8s
#55	GPT-5.6 Luna medium	OpenAI	5.4	7.6	$0.258	1/3	10.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.258 زمن الاستجابة (المتوسط) 10.4s
#119	Qwen3.6 Flash none	Qwen	5.4	6.0	$0.015	1/3	1.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 1.79s
#125	Owl Alpha medium	Openrouter	5.4	5.8	$0.000	1/3	18.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 18.7s
#51	GPT-5.6 Luna high	OpenAI	5.5	7.7	$0.924	1/3	15.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.924 زمن الاستجابة (المتوسط) 15.6s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)