ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.1 Flash Lite Preview 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 11.2s
#115	Nemotron 3 Ultra 550b A55b none	NVIDIA	5.5	6.1	$0.027	1/3	1.02s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 1.02s
#117	GPT-5.6 Terra none	OpenAI	5.5	6.0	$0.130	1/3	1.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.130 زمن الاستجابة (المتوسط) 1.00s
#120	Qwen3.5-35B-A3B none	Qwen	5.5	5.9	$0.012	1/3	1.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.012 زمن الاستجابة (المتوسط) 1.39s
#122	GLM 5V Turbo none	Z.ai	5.5	5.9	$0.052	1/3	3.13s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 3.13s
#126	Mimo V2 PRO none	Xiaomi	5.5	5.8	$0.045	1/3	2.65s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 2.65s
#129	GPT-5.4 none	OpenAI	5.5	5.8	$0.122	1/3	1.62s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.62s
#136	Kimi K2.5 none	Moonshot AI	5.5	5.5	$0.027	1/3	24.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.027 زمن الاستجابة (المتوسط) 24.6s
#138	Qwen3.6 27B none	Qwen	5.5	5.5	$0.025	1/3	4.16s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.16s
#144	GPT-5.4 Mini none	OpenAI	5.5	5.3	$0.038	1/3	913ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.038 زمن الاستجابة (المتوسط) 913ms
#148	Qwen3.6 35B A3B none	Qwen	5.5	5.2	$0.031	1/3	8.77s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.031 زمن الاستجابة (المتوسط) 8.77s
#154	MiMo-V2.5 none	Xiaomi	5.5	5.1	$0.006	1/3	3.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.006 زمن الاستجابة (المتوسط) 3.24s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)