ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.5 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.316 زمن الاستجابة (المتوسط) 5.19s
#69	GLM 5V Turbo medium	Z.ai	6.0	7.3	$0.457	1/3	63.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.457 زمن الاستجابة (المتوسط) 63.4s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.539 زمن الاستجابة (المتوسط) 3.29s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.034 زمن الاستجابة (المتوسط) 13.4s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.023 زمن الاستجابة (المتوسط) 2.15s
#75	MiMo-V2-Flash medium	Xiaomi	6.0	7.1	$0.043	1/3	10.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 10.7s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 70.3s
#81	Gemini 3 Flash Preview none	Google	5.5	6.9	$0.025	1/3	1.80s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.80s
#82	Qwen3.7 Max none	Qwen	5.5	6.9	$0.054	1/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 1.35s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 2.75s
#86	Ring-2.6-1T medium	Inclusionai	5.3	6.8	$0.033	1/3	59.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 59.6s
#88	Hy3 preview high	Tencent	5.3	6.8	$0.048	1/3	99.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 99.8s
#90	MiMo-V2.5 medium	Xiaomi	6.2	6.7	$0.061	1/3	97.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 97.1s
#91	Mimo V2 PRO medium	Xiaomi	6.0	6.7	$0.333	1/3	94.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 94.2s
#92	gpt-oss-120b medium	OpenAI	5.9	6.7	$0.013	1/3	38.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 38.4s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)