ترتيب النماذج لفئة خاص بالمجال

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في خاص بالمجال، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

متوسط درجة خاص بالمجال

4.8

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة314 مع سبب الفشل انتهت المهلة34 مع سبب الفشل تنسيق إضافي12 مع سبب الفشل خطأ API6 مع سبب الفشل لا توجد إجابة5 مع سبب الفشل لم يتبع التعليمات1

الترتيب	النموذج	الشركة	درجة خاص بالمجال	النتيجة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#13	Grok 4.20 Beta medium	X AI	5.3	8.5	1/3	21.3s
#15	GPT-5.3-Codex medium	OpenAI	5.9	8.4	1/3	64.3s
#16	Gemini 3 Flash Preview low	Google	5.3	8.4	1/3	8.05s
#19	Seed-2.0-Lite medium	Bytedance Seed	5.9	8.2	1/3	88.7s
#21	GPT-5.4 medium	OpenAI	5.3	8.0	1/3	74.3s
#24	GPT-5.2 Chat none	OpenAI	5.3	7.9	1/3	17.8s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	5.3	7.9	1/3	17.5s
#28	Gemini 2.5 Flash medium	Google	5.9	7.8	1/3	37.3s
#30	Qwen3.5-27B medium	Qwen	5.3	7.8	1/3	79.5s
#33	Hy3 preview medium	Tencent	5.3	7.7	1/3	22.3s
#35	Gemini 3 PRO Preview medium	Google	5.3	7.6	1/3	7.01s
#38	Grok 4.3 medium	X AI	5.3	7.6	1/3	181.7s
#42	GPT-5.2 medium	OpenAI	5.9	7.5	1/3	77.8s
#43	MiMo-V2.5-Pro medium	Xiaomi	5.3	7.5	1/3	37.9s
#46	Qwen3.6 35B A3B medium	Qwen	5.3	7.4	1/3	22.5s

ترتيب خاص بالمجال