ترتيب معلومات عامة x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في معلومات عامة، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

North Mini Code 1

أسباب الفشل

إجابة خاطئة168 خطأ API13 لا توجد إجابة13

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

13/13

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#137	North Mini Code medium	Cohere	1	3.0	$0.000	0/1	305.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 305.0s
#204	Qwen3.5-9B medium	Qwen	1	3.0	$0.036	0/1	177.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.036 زمن الاستجابة (المتوسط) 177.0s
#133	Gemini 3 PRO Preview medium	Google	1	3.0	$0.385	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.385 زمن الاستجابة (المتوسط) 0ms
#162	Ling-2.6-1T none	Inclusionai	1	3.0	$0.016	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 0ms
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 0ms
#193	Elephant Alpha none	Openrouter	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#195	Elephant Alpha medium	Openrouter	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

معلومات عامة: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية