ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة201 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

210/210

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#171	North Mini Code none	Cohere	3.5	5.1	$0.000	0/3	24.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 24.4s
#174	GPT-4o-mini none	OpenAI	3.5	5.0	$0.010	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.21s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3.5	5.6	$0.077	0/3	2.47s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 2.47s
#183	Trinity Large Preview none	Arcee AI	3.6	4.8	$0.008	0/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.97s
#188	Cobuddy medium	Baidu	3.6	4.7	$0.000	0/3	12.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 12.8s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3.6	5.6	$0.048	0/3	1.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 1.87s
#127	Qwen3.5-35B-A3B none	Qwen	3.7	6.1	$0.106	0/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.35s
#142	Qwen3.5-122B-A10B none	Qwen	3.8	5.7	$0.247	0/3	1.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.00s
#210	LFM2-24B-A2B none	Liquid	3.8	2.2	$0.001	0/3	1.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 1.78s
#111	LongCat 2.0 none	Meituan	4.0	6.3	$0.044	0/3	2.74s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.74s
#53	GPT-5.4 Nano medium	OpenAI	4.1	7.5	$0.138	0/3	3.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 3.79s
#193	Elephant Alpha none	Openrouter	4.2	4.3	$0.000	0/3	807ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 807ms
#116	Seed-2.0-Lite none	Bytedance Seed	5.3	6.2	$0.066	1/3	2.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.066 زمن الاستجابة (المتوسط) 2.78s
#121	gpt-oss-120b medium	OpenAI	5.3	6.1	$0.019	1/3	21.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.7s
#146	Owl Alpha medium	Openrouter	5.3	5.6	$0.000	1/3	3.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.40s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)