ترتيب مجمّع x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في مجمّع، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

استدعاء أداة غير صالح91 إجابة خاطئة68 لا توجد إجابة29 خطأ API26 انتهت المهلة5 تنسيق إضافي1 لم يتبع التعليمات1

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

24/24

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#79	Gemini 3.5 Flash none	Google	2	3.0	$1.079	0/2	0ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 0ms
#179	Ring-2.6-1T none	Inclusionai	2	3.0	$0.026	0/2	0ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 0ms
#33	Kimi K3 max	Moonshot AI	1	6.5	$3.112	1/2	223.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $3.112 زمن الاستجابة (المتوسط) 223.0s
#60	LongCat 2.0 medium	Meituan	1	7.3	$0.478	1/2	151.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 151.0s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	6.4	$0.387	1/2	111.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 111.9s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	6.4	$0.467	1/2	135.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.467 زمن الاستجابة (المتوسط) 135.7s
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.746 زمن الاستجابة (المتوسط) 817.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 433.1s
#115	Gemma 4 31B none	Google	1	3.8	$0.035	0/2	30.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.035 زمن الاستجابة (المتوسط) 30.0s
#129	Nemotron 3 Ultra none	NVIDIA	1	3.0	$0.095	0/2	21.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 21.1s
#130	Step 3.5 Flash medium	Stepfun	1	6.5	$0.108	1/2	813.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.108 زمن الاستجابة (المتوسط) 813.7s
#140	Nemotron 3 Super medium	NVIDIA	1	6.4	$0.050	1/2	259.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.050 زمن الاستجابة (المتوسط) 259.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	74.5s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.077 زمن الاستجابة (المتوسط) 74.5s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	19.6s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 19.6s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.4	$0.041	1/2	55.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 55.9s

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

مجمّع: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية