ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Muse Spark 1.1 7.8

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#25	Grok 4.5 medium	X AI	10.0	8.3	$1.928	3/3	7.75s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 7.75s
#181	Qwen3.6 Plus Preview medium	Qwen	5.3	4.9	$0.000	1/3	7.52s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 7.52s
#159	Hy3 preview low	Tencent	5.3	5.5	$0.015	1/3	7.51s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 7.51s
#191	Grok 4.1 Fast medium	X AI	5.3	4.7	$0.069	1/3	7.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 7.40s
#37	Kimi K3 max	Moonshot AI	10.0	8.0	$3.112	3/3	7.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 7.36s
#136	Step 3.5 Flash medium	Stepfun	5.3	6.0	$0.108	1/3	7.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 7.22s
#179	DeepSeek V3.2 none	DeepSeek	7.6	5.0	$0.054	2/3	6.91s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 6.91s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	3/3	6.90s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 6.90s
#13	GPT-5.5 medium	OpenAI	10.0	9.0	$4.137	3/3	6.76s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $4.137 زمن الاستجابة (المتوسط) 6.76s
#27	Muse Spark 1.1 low	Meta	8.3	8.3	$0.647	2/3	6.60s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 6.60s
#184	Ling-2.6-flash none	Inclusionai	2.9	4.9	$0.002	0/3	6.51s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 6.51s
#41	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	3/3	6.34s
إجمالي الاختبارات 3 الاختبارات الخاطئة 0 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 6.34s
#89	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 6.29s
#79	Grok 4.20 medium	X AI	7.7	7.1	$0.777	2/3	6.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.777 زمن الاستجابة (المتوسط) 6.22s
#33	Step 3.7 Flash medium	Stepfun	5.7	8.0	$0.515	1/3	6.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 6.19s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)