ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Qwen3.6 Flash 5.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#124	North Mini Code medium	Cohere	4.5	5.8	$0.000	0/3	320.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 320.4s
#130	Qwen3.6 Plus Preview medium	Qwen	9.8	5.8	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#131	Mimo V2 Omni none	Xiaomi	4.4	5.7	$0.021	0/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 2.75s
#132	Claude Sonnet 5 none	Anthropic	4.6	5.7	$0.287	0/3	3.67s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.287 زمن الاستجابة (المتوسط) 3.67s
#133	Grok 4.1 Fast medium	X AI	7.8	5.6	$0.069	0/1	23.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.6s
#134	GLM 5.1 none	Z.ai	3.9	5.6	$0.057	0/3	4.96s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 4.96s
#135	DeepSeek V4 Flash none	DeepSeek	4.2	5.5	$0.007	0/3	17.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 17.1s
#137	MiMo-V2.5-Pro none	Xiaomi	4.3	5.5	$0.017	0/3	1.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 1.41s
#139	Gemma 4 26B A4B none	Google	3.7	5.5	$0.004	0/3	4.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 4.16s
#140	Qwen3.5 Plus 2026-04-20 none	Qwen	3.9	5.5	$0.032	0/3	1.69s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 1.69s
#141	GLM 5 Turbo none	Z.ai	3.9	5.3	$0.047	0/3	2.41s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.41s
#142	Laguna XS 2.1 none	Poolside	4.3	5.3	$0.003	0/3	623ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 623ms
#143	GPT-5.6 Luna none	OpenAI	3.8	5.3	$0.047	0/3	980ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 980ms
#145	Qwen3.5-122B-A10B none	Qwen	3.7	5.3	$0.020	0/3	2.77s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 2.77s
#146	DeepSeek V3.2 none	DeepSeek	3.1	5.3	$0.016	0/3	14.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 14.5s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)