ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#170	Inkling none	Thinkingmachines	5.6	5.2	$0.147	1/3	931ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 931ms
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 15.2s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 6.19s
#149	Gemini 3.1 Flash Lite high	Google	5.7	5.6	$2.044	1/3	50.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $2.044 زمن الاستجابة (المتوسط) 50.8s
#202	Hunter Alpha none	OpenRouter	5.8	4.2	$0.000	1/3	3.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.71s
#56	Kimi K2.7 Code medium	Moonshot AI	5.9	7.5	$0.740	1/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 41.0s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 22.5s
#114	Ring-2.6-1T medium	Inclusionai	5.9	6.3	$0.103	1/3	20.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 20.7s
#135	Nemotron 3 Ultra none	NVIDIA	5.9	6.1	$0.095	1/3	1.06s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 1.06s
#140	Mimo V2 Omni medium	Xiaomi	5.9	5.9	$0.683	1/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.683 زمن الاستجابة (المتوسط) 2.38s
#178	MiniMax M2.7 medium	Minimax	5.9	5.0	$0.163	1/3	24.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 24.9s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	5.9	6.9	$0.467	1/3	3.20s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 3.20s
#126	Gemini 3.1 Flash Lite minimal	Google	6.0	6.1	$0.047	1/3	2.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 2.15s
#153	Mimo V2 PRO none	Xiaomi	6.0	5.6	$0.045	1/3	1.61s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 1.61s
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 33.7s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)