ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 0ms
#36	Claude Sonnet 5 medium	Anthropic	9.0	7.9	$0.550	2/3	17.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.550 زمن الاستجابة (المتوسط) 17.3s
#12	GPT-5.5 medium	OpenAI	8.8	9.0	$3.679	2/3	59.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.679 زمن الاستجابة (المتوسط) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	8.8	8.9	$0.960	2/3	146.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.960 زمن الاستجابة (المتوسط) 146.5s
#20	GPT-5.4 medium	OpenAI	8.8	8.5	$1.210	2/3	44.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.210 زمن الاستجابة (المتوسط) 44.4s
#22	GPT-5.2 Chat none	OpenAI	8.8	8.5	$0.393	2/3	9.82s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.393 زمن الاستجابة (المتوسط) 9.82s
#23	Step 3.7 Flash medium	Stepfun	8.8	8.5	$0.376	2/3	27.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.376 زمن الاستجابة (المتوسط) 27.4s
#80	Gemini 3.5 Flash none	Google	8.8	7.0	$1.079	2/3	34.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 34.7s
#2	Gemini 3 Flash Preview medium	Google	8.6	9.6	$0.667	2/3	84.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.667 زمن الاستجابة (المتوسط) 84.4s
#31	Nemotron 3 Ultra 550b A55b medium	NVIDIA	8.4	8.1	$0.158	2/3	26.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.158 زمن الاستجابة (المتوسط) 26.5s
#33	GPT-5.4 Mini medium	OpenAI	8.4	8.0	$0.526	2/3	57.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.526 زمن الاستجابة (المتوسط) 57.9s
#182	Laguna Xs.2 none	Poolside	8.3	4.0	$0.004	0/1	1.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 1.96s
#17	GLM 5.2 medium	Z.ai	8.2	8.7	$0.179	2/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.179 زمن الاستجابة (المتوسط) 41.0s
#50	Step 3.7 Flash low	Stepfun	8.2	7.7	$0.341	2/3	9.46s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.341 زمن الاستجابة (المتوسط) 9.46s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)