ترتيب حل الألغاز x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في حل الألغاز، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

201

النموذج الأكثر تأثرًا

Qwen3.6 27B 1

أسباب الفشل

إجابة خاطئة201 لم يتبع التعليمات90 خطأ API12 تنسيق إضافي8 انتهت المهلة5 لا توجد إجابة3

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

142/142

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#99	Qwen3.6 27B medium	Qwen	1	7.7	$0.779	2/3	61.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 61.1s
#46	DeepSeek V4 Pro high	DeepSeek	1	6.9	$0.200	1/3	56.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 56.8s
#47	MiniMax M3 medium	Minimax	1	7.9	$0.286	2/3	49.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 49.9s
#77	Kimi K2.5 medium	Moonshot AI	1	5.3	$0.600	1/3	43.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.600 زمن الاستجابة (المتوسط) 43.2s
#52	Kimi K2.7 Code medium	Moonshot AI	1	5.9	$0.751	1/3	41.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.751 زمن الاستجابة (المتوسط) 41.0s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	1/3	37.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 37.7s
#31	GLM 5.2 high	Z.ai	1	6.0	$0.970	1/3	33.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 33.7s
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/3	32.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 32.3s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	8.2	$0.101	2/3	31.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.101 زمن الاستجابة (المتوسط) 31.8s
#74	GLM 5.1 medium	Z.ai	1	8.2	$0.535	2/3	31.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.535 زمن الاستجابة (المتوسط) 31.6s
#68	Kimi K2.6 medium	Moonshot AI	1	6.0	$1.036	1/3	25.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.036 زمن الاستجابة (المتوسط) 25.1s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 24.9s
#171	North Mini Code none	Cohere	1	3.5	$0.000	0/3	24.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 24.4s
#166	Qwen3 Coder Next none	Qwen	3	3.0	$0.025	0/3	24.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 24.3s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 23.7s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

حل الألغاز: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية