ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Gemini 3.6 Flash 10.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#197	Grok 4.20 Beta none	X AI	7.7	4.4	$0.087	2/3	586ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 586ms
#29	GPT-5 Mini medium	OpenAI	5.6	8.1	$0.237	1/3	15.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 15.2s
#32	Inkling high	Thinkingmachines	6.9	8.0	$1.006	1/3	10.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 10.7s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 6.19s
#35	GLM 5.2 high	Z.ai	6.0	8.0	$0.817	1/3	33.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.817 زمن الاستجابة (المتوسط) 33.7s
#50	DeepSeek V4 Pro high	DeepSeek	6.9	7.7	$0.200	1/3	56.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 56.8s
#55	Nemotron 3 Ultra medium	NVIDIA	5.5	7.5	$0.774	1/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 3.54s
#56	Kimi K2.7 Code medium	Moonshot AI	5.9	7.5	$0.740	1/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 41.0s
#64	LongCat 2.0 medium	Meituan	5.4	7.4	$0.478	1/3	8.84s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 8.84s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 3.11s
#71	Step 3.7 Flash low	Stepfun	5.5	7.3	$0.454	1/3	1.84s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 1.84s
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 25.1s
#77	Grok 4.3 medium	X AI	5.9	7.1	$0.779	1/3	22.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 22.5s
#80	DeepSeek V3.2 medium	DeepSeek	7.0	7.0	$0.078	1/3	37.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 37.7s
#81	Kimi K2.5 medium	Moonshot AI	5.3	7.0	$0.600	1/3	43.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 43.2s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)