ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#54	Grok Build 0.1 medium	X AI	5.7	7.6	$0.927	1/3	108.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.927 زمن الاستجابة (المتوسط) 108.5s
#147	MiniMax M2.7 medium	Minimax	5.7	5.2	$0.100	1/3	101.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.100 زمن الاستجابة (المتوسط) 101.9s
#127	Owl Alpha none	Openrouter	5.6	5.8	$0.000	1/3	36.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 36.9s
#85	Gemini 3.5 Flash minimal	Google	5.6	6.8	$0.108	1/3	2.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 2.75s
#71	DeepSeek V4 Pro none	DeepSeek	5.6	7.2	$0.034	1/3	13.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.034 زمن الاستجابة (المتوسط) 13.4s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 2.83s
#58	GPT-5.3 Chat none	OpenAI	5.6	7.5	$0.433	1/3	10.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 10.5s
#63	Seed-2.0-Mini medium	Bytedance Seed	5.5	7.4	$0.044	1/3	220.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 220.5s
#128	Kimi K2.6 none	Moonshot AI	5.5	5.8	$0.078	1/3	82.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 82.6s
#41	Gemini 3.1 Flash Lite Preview medium	Google	5.5	7.8	$0.068	1/3	4.09s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 4.09s
#43	Gemini 3.1 Flash Lite medium	Google	5.5	7.8	$0.071	1/3	3.81s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.071 زمن الاستجابة (المتوسط) 3.81s
#68	Claude Sonnet 4.6 none	Anthropic	5.5	7.3	$0.316	1/3	5.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.316 زمن الاستجابة (المتوسط) 5.19s
#70	Claude Opus 4.8 none	Anthropic	5.5	7.2	$0.539	1/3	3.29s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.539 زمن الاستجابة (المتوسط) 3.29s
#73	Qwen3.7 Plus none	Qwen	5.5	7.2	$0.023	1/3	2.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.023 زمن الاستجابة (المتوسط) 2.15s
#78	Laguna XS 2.1 medium	Poolside	5.5	7.0	$0.036	1/3	70.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 70.3s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)