ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 3.03s
#107	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 20.3s
#120	Qwen3.5-Flash medium	Qwen	8.2	6.2	$0.139	2/3	27.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 27.6s
#125	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 33.1s
#62	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 59.6s
#94	Qwen3.6 35B A3B medium	Qwen	8.0	6.7	$0.746	2/3	5.95s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 5.95s
#19	Muse Spark 1.1 medium	Meta	7.9	8.6	$1.357	2/3	42.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.357 زمن الاستجابة (المتوسط) 42.5s
#51	MiniMax M3 medium	Minimax	7.9	7.6	$0.286	2/3	49.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 49.9s
#30	Muse Spark 1.1 high	Meta	7.8	8.1	$1.694	2/3	70.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 70.0s
#54	GPT-5.6 Luna medium	OpenAI	7.8	7.6	$0.352	2/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 4.04s
#60	GPT-5.4 Mini medium	OpenAI	7.8	7.5	$0.756	2/3	4.37s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 4.37s
#95	Gemini 3.5 Flash-Lite low	Google	7.8	6.7	$0.145	2/3	1.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.145 زمن الاستجابة (المتوسط) 1.22s
#12	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.38s
#20	Claude Fable 5 medium	Anthropic	7.7	8.6	$3.478	2/3	5.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.478 زمن الاستجابة (المتوسط) 5.18s
#26	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	2.98s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 2.98s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)