ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

201

النموذج الأكثر تأثرًا

GPT-5.4 Nano 2

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

142/142

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#53	GPT-5.4 Nano medium	OpenAI	2	4.1	$0.138	0/3	3.79s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 3.79s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 9.18s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.74s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.062 زمن الاستجابة (المتوسط) 1.21s
#125	Qwen3.5-Flash none	Qwen	3	3.1	$0.073	0/3	10.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 10.9s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 1.35s
#137	North Mini Code medium	Cohere	3	3.3	$0.000	0/3	19.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 19.7s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 1.00s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	3	3.5	$0.077	0/3	2.47s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 2.47s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.6	$0.048	0/3	1.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 1.87s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 23.7s
#155	Kimi K2.5 none	Moonshot AI	3	3.0	$0.127	0/3	4.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 4.04s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية