ترتيب مجمّع x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Qwen3.5-Flash 1

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

63/63

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 243.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 183.1s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 161.2s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.646 زمن الاستجابة (المتوسط) 160.6s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.2	$0.247	0/2	129.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.247 زمن الاستجابة (المتوسط) 129.3s
#127	Qwen3.5-35B-A3B none	Qwen	1	3.8	$0.106	0/2	128.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 128.3s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	1	6.4	$0.122	1/2	109.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.122 زمن الاستجابة (المتوسط) 109.7s
#138	Kimi K2.6 none	Moonshot AI	1	3.0	$0.184	0/2	77.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.184 زمن الاستجابة (المتوسط) 77.8s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	3.8	$0.067	0/2	73.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 73.0s
#52	Kimi K2.7 Code medium	Moonshot AI	1	7.3	$0.751	1/2	66.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.751 زمن الاستجابة (المتوسط) 66.0s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	6.5	$0.073	1/2	64.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 64.8s
#109	Mimo V2 PRO medium	Xiaomi	1	2.3	$0.333	0/1	64.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 64.7s
#98	Qwen3.6 Max Preview none	Qwen	1	6.5	$0.231	1/2	61.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 61.6s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 61.2s
#155	Kimi K2.5 none	Moonshot AI	1	2.8	$0.127	0/2	61.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 61.0s

1 2 3 4 5

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية