ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

201

النموذج الأكثر تأثرًا

Qwen3.5-Flash 3

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

142/142

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 10.9s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 19.7s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 1.87s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 4.04s
#160	Laguna XS 2.1 none	Poolside	3	3.0	$0.008	0/3	1.01s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.01s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 24.3s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	1.84s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 1.84s
#189	Mercury 2 none	Inception	3	3.1	$0.030	0/3	535ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 535ms
#203	Grok 4.1 Fast none	X AI	3	3.0	$0.008	0/3	1.10s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.10s
#29	Step 3.7 Flash medium	Stepfun	2	5.7	$0.515	1/3	6.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 6.19s
#51	Nemotron 3 Ultra medium	NVIDIA	2	5.5	$0.774	1/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 3.54s
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 3.79s
#60	LongCat 2.0 medium	Meituan	2	5.4	$0.478	1/3	8.84s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 8.84s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	2	6.4	$0.387	1/3	3.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 3.11s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية