ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.5 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#93	GPT-5 Nano medium	OpenAI	7.0	6.7	$0.081	1/3	41.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.081 زمن الاستجابة (المتوسط) 41.6s
#96	Gemini 3.1 Flash Lite Preview low	Google	5.5	6.5	$0.026	1/3	1.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 1.39s
#98	Gemini 3.1 Flash Lite Preview none	Google	5.5	6.4	$0.018	1/3	967ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 967ms
#99	Gemini 3.1 Flash Lite low	Google	5.5	6.4	$0.028	1/3	1.53s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.028 زمن الاستجابة (المتوسط) 1.53s
#100	Hy3 preview low	Tencent	5.3	6.4	$0.015	1/3	27.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 27.9s
#102	GPT-5.6 Sol none	OpenAI	5.5	6.3	$0.225	1/3	1.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.225 زمن الاستجابة (المتوسط) 1.39s
#104	Qwen3.5-35B-A3B medium	Qwen	5.9	6.3	$0.401	1/3	206.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.401 زمن الاستجابة (المتوسط) 206.6s
#105	GPT-5.5 none	OpenAI	5.5	6.3	$0.231	1/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 1.35s
#107	Seed-2.0-Lite none	Bytedance Seed	5.6	6.2	$0.019	1/3	2.83s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 2.83s
#108	GPT-5.6 Luna low	OpenAI	5.5	6.2	$0.141	1/3	4.61s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.141 زمن الاستجابة (المتوسط) 4.61s
#109	Gemini 2.5 Flash none	Google	5.5	6.2	$0.016	1/3	736ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 736ms
#110	Gemini 3.1 Flash Lite minimal	Google	5.5	6.1	$0.013	1/3	831ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 831ms
#112	Gemini 3.1 Flash Lite none	Google	5.5	6.1	$0.013	1/3	938ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.013 زمن الاستجابة (المتوسط) 938ms
#113	Qwen3.5-Flash none	Qwen	5.5	6.1	$0.005	1/3	850ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.005 زمن الاستجابة (المتوسط) 850ms
#114	Gemma 4 31B none	Google	5.5	6.1	$0.004	1/3	11.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 11.2s

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)