ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

201

النموذج الأكثر تأثرًا

GPT-5.6 Sol 1

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

142/142

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#3	GPT-5.6 Sol low	OpenAI	1	8.2	$0.971	2/3	3.44s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 3.44s
#4	GPT-5.6 Sol medium	OpenAI	1	8.2	$1.316	2/3	2.98s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 2.98s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	2.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 2.38s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	2.98s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 2.98s
#25	Gemini 2.5 Flash medium	Google	1	7.7	$0.643	2/3	3.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.643 زمن الاستجابة (المتوسط) 3.18s
#26	GPT-5 Mini medium	OpenAI	1	5.6	$0.237	1/3	15.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 15.2s
#28	Inkling high	Thinkingmachines	1	6.9	$1.006	1/3	10.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 10.7s
#30	GPT-5.2 Chat none	OpenAI	1	7.7	$0.604	2/3	4.10s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 4.10s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 33.7s
#34	GPT-5.6 Terra high	OpenAI	1	7.7	$1.055	2/3	5.45s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 5.45s
#38	GLM 5.2 medium	Z.ai	1	8.2	$0.222	2/3	13.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.222 زمن الاستجابة (المتوسط) 13.1s
#39	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 3.78s
#43	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 4.71s
#44	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 14.6s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 56.8s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية