ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة204 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

216/216

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#72	Kimi K2.6 medium	Moonshot AI	6.0	7.2	$1.036	1/3	25.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 25.1s
#118	Claude Sonnet 5 none	Anthropic	6.0	6.3	$0.548	1/3	3.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.22s
#212	gpt-oss-120b none	OpenAI	6.0	3.7	$0.010	1/3	8.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 8.21s
#190	Hunter Alpha medium	OpenRouter	6.1	4.7	$0.000	1/3	5.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 5.35s
#162	Gemma 4 26B A4B none	Google	6.2	5.5	$0.015	1/3	744ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 744ms
#128	Gemini 3.1 Flash Lite none	Google	6.3	6.1	$0.046	1/3	720ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 720ms
#208	Grok Build 0.1 none	X AI	6.4	4.0	$0.547	1/3	9.55s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 9.55s
#129	Inkling low	Thinkingmachines	6.4	6.1	$0.187	1/3	2.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 2.97s
#182	GLM 4.7 Flash none	Z.ai	6.4	4.9	$0.016	1/3	1.20s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.20s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	6.4	7.4	$0.387	1/3	3.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 3.11s
#115	Mimo V2 PRO medium	Xiaomi	6.4	6.3	$0.333	1/3	5.08s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 5.08s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/3	4.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 4.23s
#88	MiMo-V2.5-Pro medium	Xiaomi	6.7	6.9	$0.187	1/3	5.31s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.31s
#109	Qwen3.5-27B none	Qwen	6.7	6.5	$0.090	1/3	1.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 1.38s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	6.7	6.1	$0.122	1/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 1.97s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)