ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3 PRO Preview 3.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 0ms
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
إجمالي الاختبارات 0 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 0ms
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#174	Hunter Alpha none	OpenRouter	9.8	4.5	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#188	Step 3.5 Flash none	Stepfun	9.8	2.6	$0.020	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
إجمالي الاختبارات 0 الاختبارات الخاطئة 0 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 0ms
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 623ms
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 736ms
#183	Granite 4.1 8B none	IBM Granite	4.5	4.0	$0.003	0/3	775ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 775ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 831ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 850ms
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 901ms
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.038 زمن الاستجابة (المتوسط) 913ms
#168	Qwen3 Coder Next medium	Qwen	3.7	4.7	$0.008	0/3	924ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 924ms

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)