ترتيب مجمّع x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

63/63

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#164	Inkling none	Thinkingmachines	1	2.9	$0.147	0/2	25.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 25.7s
#166	Qwen3 Coder Next none	Qwen	1	3.0	$0.025	0/2	30.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 30.9s
#167	Mistral Small 4 medium	Mistral	1	3.0	$0.096	0/2	32.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 32.4s
#168	MiMo-V2.5 none	Xiaomi	1	3.0	$0.025	0/2	28.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 28.9s
#170	GLM 5 Turbo none	Z.ai	1	1.5	$0.047	0/1	4.89s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 4.89s
#174	GPT-4o-mini none	OpenAI	1	3.0	$0.010	0/2	6.32s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 6.32s
#180	GPT-5.4 Nano none	OpenAI	1	3.0	$0.041	0/2	14.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 14.7s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 73.0s
#183	Trinity Large Preview none	Arcee AI	1	1.5	$0.008	0/1	8.91s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 8.91s
#187	Qwen3 Coder Next medium	Qwen	1	3.0	$0.032	0/2	14.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 14.6s
#193	Elephant Alpha none	Openrouter	1	1.5	$0.000	0/1	3.81s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.81s
#195	Elephant Alpha medium	Openrouter	1	1.5	$0.000	0/1	3.70s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 3.70s
#196	Hunter Alpha none	OpenRouter	1	1.5	$0.000	0/1	15.2s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 15.2s
#198	Laguna Xs.2 medium	Poolside	1	1.5	$0.015	0/1	15.9s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 15.9s
#199	Hy3 preview none	Tencent	1	1.5	$0.003	0/1	35.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 35.8s

←

1 2 3 4 5

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية