ترتيب النماذج لفئة حل الألغاز

اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في حل الألغاز، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: المقياس ↑.

النماذج المعروضة

متوسط درجة حل الألغاز

6.7

أفضل نموذج

Step 3.5 Flash 0.0

أسباب الفشل

مع سبب الفشل إجابة خاطئة201 مع سبب الفشل لم يتبع التعليمات90 مع سبب الفشل خطأ API12 مع سبب الفشل تنسيق إضافي8 مع سبب الفشل انتهت المهلة5 مع سبب الفشل لا توجد إجابة3

210/210

الترتيب	النموذج	الشركة	درجة حل الألغاز	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	3.1	5.4	$0.041	0/3	1.57s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.57s
#91	LongCat 2.0 low	Meituan	3.1	6.7	$0.391	0/3	8.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 8.15s
#125	Qwen3.5-Flash none	Qwen	3.1	6.1	$0.073	0/3	10.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 10.9s
#162	Ling-2.6-1T none	Inclusionai	3.1	5.3	$0.016	0/3	5.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#189	Mercury 2 none	Inception	3.1	4.6	$0.030	0/3	535ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 535ms
#199	Hy3 preview none	Tencent	3.1	4.0	$0.003	0/3	4.56s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 4.56s
#138	Kimi K2.6 none	Moonshot AI	3.1	5.8	$0.184	0/3	1.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.40s
#165	Mistral Small 4 none	Mistral	3.1	5.1	$0.022	0/3	399ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 399ms
#97	LongCat 2.0 high	Meituan	3.1	6.6	$0.469	0/3	9.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 9.18s
#169	Qwen3.5-9B none	Qwen	3.2	5.1	$0.021	0/3	621ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 621ms
#201	Granite 4.1 8B none	IBM Granite	3.2	4.0	$0.007	0/3	608ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 608ms
#161	Qwen3.6 35B A3B none	Qwen	3.2	5.3	$0.061	0/3	1.07s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 1.07s
#137	North Mini Code medium	Cohere	3.3	5.9	$0.000	0/3	19.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 19.7s
#167	Mistral Small 4 medium	Mistral	3.4	5.1	$0.096	0/3	2.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.17s
#124	Qwen3.6 Flash none	Qwen	3.5	6.1	$0.062	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.21s

ترتيب حل الألغاز

تصفية النماذج

أفضل النماذج حسب درجة حل الألغاز

درجة حل الألغاز مقابل إجمالي التكلفة

أفضل النماذج حسب زمن الاستجابة (المتوسط)