ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#1	Gemini 3.5 Flash high	Google	10.0	9.8	$1.115	3/3	23.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.115 زمن الاستجابة (المتوسط) 23.0s
#3	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.649	3/3	11.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.649 زمن الاستجابة (المتوسط) 11.3s
#4	Qwen3.7 Max medium	Qwen	10.0	9.4	$0.523	3/3	35.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.523 زمن الاستجابة (المتوسط) 35.3s
#5	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$0.966	3/3	9.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.966 زمن الاستجابة (المتوسط) 9.40s
#6	GPT-5.6 Sol high	OpenAI	10.0	9.4	$0.821	3/3	12.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.821 زمن الاستجابة (المتوسط) 12.5s
#7	GPT-5.5 low	OpenAI	10.0	9.3	$0.907	3/3	15.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.907 زمن الاستجابة (المتوسط) 15.0s
#9	Claude Fable 5 medium	Anthropic	10.0	9.2	$3.165	3/3	15.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $3.165 زمن الاستجابة (المتوسط) 15.6s
#13	GPT-5.3-Codex medium	OpenAI	10.0	8.9	$0.740	3/3	19.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 19.5s
#15	Claude Opus 4.8 medium	Anthropic	10.0	8.8	$1.107	3/3	15.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.107 زمن الاستجابة (المتوسط) 15.3s
#18	GLM 5 medium	Z.ai	10.0	8.6	$0.228	3/3	74.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.228 زمن الاستجابة (المتوسط) 74.3s
#19	GPT-5 Mini medium	OpenAI	10.0	8.5	$0.159	3/3	27.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.159 زمن الاستجابة (المتوسط) 27.6s
#25	GPT-5.2 medium	OpenAI	10.0	8.4	$0.548	3/3	22.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 22.7s
#40	Grok 4.5 low	X AI	10.0	7.8	$0.760	3/3	13.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.760 زمن الاستجابة (المتوسط) 13.7s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)