ترتيب النماذج لفئة مجمّع

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في مجمّع، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة مجمّع

6.3

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة52 مع سبب الفشل استدعاء أداة غير صالح19 مع سبب الفشل خطأ API13 مع سبب الفشل انتهت المهلة2 مع سبب الفشل لا توجد إجابة2 مع سبب الفشل لم يتبع التعليمات1

الترتيب	النموذج	الشركة	درجة مجمّع	النتيجة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	2.8	5.7	0/1	13.3s
#115	Qwen3.5-27B none	Qwen	2.8	5.7	0/1	9.39s
#112	GLM 5.1 none	Z.ai	2.8	5.7	0/1	32.6s
#135	Kimi K2.5 none	Moonshot AI	2.8	5.2	0/1	19.2s
#158	GLM 4.7 Flash medium	Z.ai	2.8	4.4	0/1	65.6s
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#32	Gemini 3.5 Flash minimal	Google	3.0	7.7	0/1	3.56s
#34	Qwen3.7 Max none	Qwen	3.0	7.7	0/1	2.17s
#35	Gemini 3 PRO Preview medium	Google	3.0	7.6	0/1	10.4s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#50	Gemini 3.1 Flash Lite Preview low	Google	3.0	7.4	0/1	11.9s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#61	Gemini 3.1 Flash Lite low	Google	3.0	7.2	0/1	4.48s

ترتيب مجمّع