ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

أسباب الفشل

مع سبب الفشل إجابة خاطئة201 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

210/210

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#3	GPT-5.6 Sol low	OpenAI	8.2	9.5	$0.971	2/3	3.44s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 3.44s
#4	GPT-5.6 Sol medium	OpenAI	8.2	9.4	$1.316	2/3	2.98s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 2.98s
#18	GPT-5.4 medium	OpenAI	8.2	8.5	$1.533	2/3	9.14s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 9.14s
#38	GLM 5.2 medium	Z.ai	8.2	7.8	$0.222	2/3	13.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.222 زمن الاستجابة (المتوسط) 13.1s
#45	DeepSeek V4 Flash high	DeepSeek	8.2	7.7	$0.042	2/3	26.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.042 زمن الاستجابة (المتوسط) 26.1s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	8.2	7.2	$0.482	2/3	3.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.38s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	8.2	7.2	$0.317	2/3	17.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 17.7s
#74	GLM 5.1 medium	Z.ai	8.2	7.1	$0.535	2/3	31.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 31.6s
#80	Seed-2.0-Mini medium	Bytedance Seed	8.2	7.0	$0.101	2/3	31.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 31.8s
#85	Qwen3.6 Flash medium	Qwen	8.2	6.9	$0.738	2/3	6.29s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 6.29s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	8.2	6.7	$0.476	2/3	3.03s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 3.03s
#101	MiMo-V2.5 medium	Xiaomi	8.2	6.5	$0.082	2/3	20.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.082 زمن الاستجابة (المتوسط) 20.3s
#114	Qwen3.5-Flash medium	Qwen	8.2	6.2	$0.139	2/3	27.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 27.6s
#119	Qwen3.5-35B-A3B medium	Qwen	8.2	6.2	$0.837	2/3	33.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 33.1s
#58	Qwen3.5-27B medium	Qwen	8.2	7.4	$1.627	2/3	59.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.627 زمن الاستجابة (المتوسط) 59.6s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)