ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

204

النموذج الأكثر تأثرًا

Qwen3.5-Flash 3

أسباب الفشل

إجابة خاطئة204 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

145/145

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#42	GLM 5.2 medium	Z.ai	1	8.2	$0.187	2/3	13.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 13.1s
#43	GPT-5.6 Terra medium	OpenAI	1	8.4	$0.676	2/3	3.78s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 3.78s
#47	Claude Opus 4.6 medium	Anthropic	1	7.7	$3.059	2/3	4.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 4.71s
#48	GPT-5.6 Luna high	OpenAI	1	7.6	$1.017	2/3	14.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 14.6s
#50	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 56.8s
#51	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 49.9s
#52	Grok Build 0.1 medium	X AI	1	7.7	$1.097	2/3	18.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 18.3s
#54	GPT-5.6 Luna medium	OpenAI	1	7.8	$0.352	2/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 4.04s
#56	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.740	1/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 41.0s
#68	Gemini 3.1 Flash Lite Preview medium	Google	1	7.7	$0.115	2/3	5.30s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.115 زمن الاستجابة (المتوسط) 5.30s
#69	Gemini 3.1 Flash Lite medium	Google	1	7.6	$0.117	2/3	1.95s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.117 زمن الاستجابة (المتوسط) 1.95s
#72	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 25.1s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	1	8.2	$0.482	2/3	3.38s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.38s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	8.2	$0.317	2/3	17.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 17.7s
#75	Qwen3.7 Plus none	Qwen	1	7.7	$0.106	2/3	1.71s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.71s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية