ترتيب مجمّع x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Laguna Xs.2 1

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

63/63

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#205	Laguna Xs.2 none	Poolside	1	1.5	$0.004	0/1	2.01s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 2.01s
#189	Mercury 2 none	Inception	2	3.0	$0.030	0/2	2.56s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 2.56s
#200	MiMo-V2-Flash none	Xiaomi	1	1.5	$0.025	0/1	2.87s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 2.87s
#203	Grok 4.1 Fast none	X AI	1	1.5	$0.008	0/1	3.33s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 3.33s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.70s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.81s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 4.89s
#141	GLM 5 none	Z.ai	1	1.5	$0.041	0/1	4.98s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 4.98s
#157	Mimo V2 Omni none	Xiaomi	1	1.5	$0.021	0/1	5.96s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.96s
#136	GPT-5.4 Mini none	OpenAI	1	6.5	$0.095	1/2	6.22s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 6.22s
#106	Gemini 3.1 Flash Lite Preview none	Google	1	3.0	$0.052	0/2	6.23s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 6.23s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 6.32s
#145	GLM 5V Turbo none	Z.ai	1	1.5	$0.052	0/1	6.51s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.052 زمن الاستجابة (المتوسط) 6.51s
#147	Mimo V2 PRO none	Xiaomi	1	1.5	$0.045	0/1	6.58s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.045 زمن الاستجابة (المتوسط) 6.58s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 6.68s

1 2 3 4 5

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية