ترتيب النماذج لفئة البرمجة

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في البرمجة، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة البرمجة

5.7

أفضل نموذج

Gemini 3.1 Flash Lite Preview 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة230 مع سبب الفشل خطأ API43 مع سبب الفشل انتهت المهلة25 مع سبب الفشل لا توجد إجابة18 مع سبب الفشل لم يتبع التعليمات16 مع سبب الفشل تنسيق إضافي12

189/189

الترتيب	النموذج	الشركة	درجة البرمجة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#111	Gemini 3.1 Flash Lite Preview high	Google	0.0	6.1	$2.310	0/0	0ms
إجمالي الاختبارات 0 الاختبارات الخاطئة 0 إجمالي التكلفة $2.310 زمن الاستجابة (المتوسط) 0ms
#189	LFM2-24B-A2B none	Liquid	0.0	2.4	$0.001	0/0	0ms
إجمالي الاختبارات 0 الاختبارات الخاطئة 0 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 0ms
#186	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1.1	3.6	$0.000	0/1	38.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 38.1s
#175	Grok 4.20 none	X AI	1.1	4.4	$0.057	0/1	1.22s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 1.22s
#158	Laguna M.1 medium	Poolside	1.5	5.0	$0.033	0/1	35.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 35.6s
#184	gpt-oss-120b none	OpenAI	1.5	4.0	$0.010	0/1	9.57s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 9.57s
#181	Grok 4.1 Fast none	X AI	1.8	4.0	$0.008	0/1	1.79s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.79s
#169	Grok 4.20 Beta none	X AI	1.8	4.7	$0.087	0/1	1.14s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 1.14s
#176	Laguna Xs.2 medium	Poolside	2.1	4.3	$0.015	0/1	14.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 14.4s
#94	Step 3.5 Flash medium	Stepfun	2.4	6.6	$0.070	0/2	258.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.070 زمن الاستجابة (المتوسط) 258.4s
#170	Laguna M.1 none	Poolside	2.5	4.6	$0.009	0/1	2.93s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 2.93s
#178	Hy3 preview none	Tencent	2.7	4.3	$0.003	0/3	4.56s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 4.56s
#185	Qwen3.5-9B medium	Qwen	2.9	3.8	$0.036	0/3	100.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 100.9s
#72	Gemma 4 26B A4B medium	Google	2.9	7.2	$0.045	0/3	272.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 272.5s
#106	Gemini 3 PRO Preview medium	Google	3.0	6.2	$0.385	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 0ms

ترتيب البرمجة

تصفية النماذج

أفضل النماذج حسب درجة البرمجة

درجة البرمجة مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)