ترتيب النماذج لفئة حل الألغاز

فئة AI BENCHY

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة147 مع سبب الفشل لم يتبع التعليمات78 مع سبب الفشل خطأ API13 مع سبب الفشل انتهت المهلة5 مع سبب الفشل تنسيق إضافي5 مع سبب الفشل لا توجد إجابة1

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#80	Mimo V2 Omni medium	Xiaomi	5.9	6.7	1/3	2.38s
#81	Mercury 2 medium	Inception	5.4	6.6	1/3	949ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	6.7	6.6	1/3	5.19s
#85	Gemma 4 31B none	Google	6.5	6.5	1/3	4.23s
#86	Grok 4.1 Fast medium	X AI	5.3	6.5	1/3	7.40s
#87	Gemini 3.1 Flash Lite minimal	Google	6.0	6.4	1/3	2.15s
#89	Hy3 preview low	Tencent	5.3	6.4	1/3	7.51s
#90	Gemini 3.1 Flash Lite none	Google	6.3	6.4	1/3	720ms
#92	Laguna M.1 medium	Poolside	5.3	6.4	1/3	10.2s
#93	Qwen3.6 Plus Preview medium	Qwen	5.3	6.3	1/3	7.52s
#94	GPT-5 Nano medium	OpenAI	5.3	6.3	1/3	20.6s
#99	gpt-oss-120b medium	OpenAI	5.3	6.1	1/3	21.7s
#100	Grok Build 0.1 none	X AI	6.4	6.0	1/3	9.55s
#102	Gemma 4 26B A4B none	Google	6.2	6.0	1/3	744ms
#103	DeepSeek V4 Pro high	DeepSeek	5.9	6.0	1/3	34.8s

ترتيب حل الألغاز