ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

204

النموذج الأكثر تأثرًا

Qwen3.5-Flash 3

أسباب الفشل

إجابة خاطئة204 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

145/145

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#101	GLM 5.2 none	Z.ai	1	7.7	$0.128	2/3	3.31s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.128 زمن الاستجابة (المتوسط) 3.31s
#104	Gemini 3.5 Flash-Lite medium	Google	1	8.4	$0.369	2/3	1.70s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 1.70s
#105	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 61.1s
#109	Qwen3.5-27B none	Qwen	1	6.7	$0.090	1/3	1.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 1.38s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	1	7.7	$0.073	2/3	2.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 2.71s
#114	Ring-2.6-1T medium	Inclusionai	1	5.9	$0.103	1/3	20.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 20.7s
#118	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 3.22s
#119	MiMo-V2-Flash medium	Xiaomi	1	7.7	$0.043	2/3	3.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 3.87s
#121	Gemma 4 31B none	Google	1	6.5	$0.021	1/3	4.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 4.23s
#123	GPT-5.6 Luna low	OpenAI	1	7.6	$0.249	2/3	3.59s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 3.59s
#124	Gemini 2.5 Flash none	Google	1	7.7	$0.017	2/3	604ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 604ms
#127	gpt-oss-120b medium	OpenAI	1	5.3	$0.019	1/3	21.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 21.7s
#128	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 720ms
#129	Inkling low	Thinkingmachines	1	6.4	$0.187	1/3	2.97s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 2.97s
#134	GPT-5 Nano medium	OpenAI	1	5.3	$0.114	1/3	20.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 20.6s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية