ترتيب تحليل البيانات واستخراجها x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

MiMo-V2-Flash 1

أسباب الفشل

إجابة خاطئة41 خطأ API14 لا توجد إجابة8 تنسيق إضافي6 انتهت المهلة1

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

14/14

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.043 زمن الاستجابة (المتوسط) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.020 زمن الاستجابة (المتوسط) 0ms
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 1.23s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.003 زمن الاستجابة (المتوسط) 2.85s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.018 زمن الاستجابة (المتوسط) 5.25s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 5.85s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 7.12s
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 8.10s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 9.33s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 12.1s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 19.7s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 45.9s
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.139 زمن الاستجابة (المتوسط) 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.837 زمن الاستجابة (المتوسط) 59.3s

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

تحليل البيانات واستخراجها: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية