ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.5 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.031 زمن الاستجابة (المتوسط) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 3.24s
#163	Ling-2.6-flash none	Inclusionai	5.3	4.9	$0.001	1/3	11.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 11.2s
#164	Ring-2.6-1T none	Inclusionai	5.3	4.8	$0.026	1/3	143.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 143.8s
#60	Qwen3.6 Flash medium	Qwen	5.0	7.5	$0.288	0/3	42.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 42.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 272.5s
#74	GLM 5.2 none	Z.ai	3.7	7.1	$0.042	0/3	7.55s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 7.55s
#76	Step 3.7 Flash high	Stepfun	4.0	7.1	$1.148	0/3	206.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.148 زمن الاستجابة (المتوسط) 206.2s
#77	GLM 5.1 medium	Z.ai	4.6	7.1	$0.288	0/3	109.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.288 زمن الاستجابة (المتوسط) 109.6s
#84	Qwen3.5-Flash medium	Qwen	3.7	6.8	$0.080	0/3	58.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.080 زمن الاستجابة (المتوسط) 58.9s
#87	Mimo V2 Omni medium	Xiaomi	3.3	6.8	$0.683	0/3	183.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 183.9s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.070 زمن الاستجابة (المتوسط) 258.4s
#101	Nemotron 3 Super medium	NVIDIA	3.1	6.3	$0.020	0/3	147.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 147.3s
#103	Gemma 4 31B medium	Google	4.3	6.3	$0.033	0/3	219.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 219.8s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 0ms

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)