ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Qwen3.6 Flash 5.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#149	Mistral Small 4 none	Mistral	3.7	5.1	$0.007	0/3	901ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 901ms
#150	Qwen3 Coder Next none	Qwen	4.6	5.1	$0.009	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.22s
#151	North Mini Code none	Cohere	3.9	5.1	$0.000	0/3	22.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.0s
#152	Hunter Alpha medium	OpenRouter	9.8	5.1	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#153	Mistral Small 4 medium	Mistral	4.4	5.1	$0.068	0/3	40.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 40.0s
#155	Qwen3.5-9B none	Qwen	3.9	5.1	$0.006	0/3	5.60s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 5.60s
#157	Trinity Large Preview none	Arcee AI	3.7	5.0	$0.008	0/3	14.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 14.3s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 35.6s
#159	GPT-4o-mini none	OpenAI	3.2	5.0	$0.006	0/3	1.63s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 1.63s
#160	Cobuddy medium	Baidu	3.7	4.9	$0.000	0/3	79.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 79.2s
#161	GLM 4.7 Flash none	Z.ai	4.3	4.9	$0.004	0/3	2.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 2.54s
#162	Nemotron 3 Super none	NVIDIA	3.3	4.9	$0.006	0/3	2.64s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 2.64s
#165	GPT-5.4 Nano none	OpenAI	4.6	4.8	$0.011	0/3	2.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.011 زمن الاستجابة (المتوسط) 2.22s
#166	MiniMax M2.5 medium	Minimax	3.4	4.7	$0.303	0/3	188.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.303 زمن الاستجابة (المتوسط) 188.6s
#167	Ling-2.6-1T none	Inclusionai	3.8	4.7	$0.005	0/3	10.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 10.6s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)