ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

201

النموذج الأكثر تأثرًا

Qwen3.5-Flash 3

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

142/142

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	3.1	$0.041	0/3	1.57s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.57s
#162	Ling-2.6-1T none	Inclusionai	2	3.1	$0.016	0/3	5.36s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 5.36s
#165	Mistral Small 4 none	Mistral	2	3.1	$0.022	0/3	399ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 399ms
#167	Mistral Small 4 medium	Mistral	2	3.4	$0.096	0/3	2.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.17s
#169	Qwen3.5-9B none	Qwen	2	3.2	$0.021	0/3	621ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 621ms
#174	GPT-4o-mini none	OpenAI	2	3.5	$0.010	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 1.21s
#178	Ling-2.6-flash none	Inclusionai	2	2.9	$0.002	0/3	6.51s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 6.51s
#183	Trinity Large Preview none	Arcee AI	2	3.6	$0.008	0/3	1.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 1.97s
#187	Qwen3 Coder Next medium	Qwen	2	3.0	$0.032	0/3	1.25s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 1.25s
#188	Cobuddy medium	Baidu	2	3.6	$0.000	0/3	12.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 12.8s
#192	Laguna M.1 none	Poolside	2	3.0	$0.009	0/3	891ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 891ms
#193	Elephant Alpha none	Openrouter	2	4.2	$0.000	0/3	807ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 807ms
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/3	12.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 12.9s
#197	Grok 4.20 none	X AI	2	5.3	$0.057	1/3	473ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 473ms
#199	Hy3 preview none	Tencent	2	3.1	$0.003	0/3	4.56s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 4.56s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية