ترتيب خاص بالمجال x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Mistral Small 4 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

7/7

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#167	Mistral Small 4 medium	Mistral	1	5.3	$0.096	1/3	6.11s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 6.11s
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 287ms
#27	Muse Spark 1.1 high	Meta	1	3.5	$1.694	0/3	67.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $1.694 زمن الاستجابة (المتوسط) 67.4s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	2.9	$0.041	0/3	4.99s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 4.99s
#173	DeepSeek V3.2 none	DeepSeek	1	2.9	$0.054	0/3	4.17s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 4.17s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/3	22.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 22.1s
#199	Hy3 preview none	Tencent	1	3.6	$0.003	0/3	17.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 17.6s

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية