ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 99.8s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 27.9s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 143.8s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 42.9s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 109.6s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 2.22s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.287 زمن الاستجابة (المتوسط) 3.67s
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.22s
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 320.4s
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 775ms
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 40.0s
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.75s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 623ms

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)