ترتيب الذكاء العام x خطأ API

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور خطأ API في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Nemotron 3 Ultra 1

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

البرمجة45 مجمّع26 استدعاء الأدوات17 تحليل البيانات واستخراجها14 حيل مضادة للذكاء الاصطناعي14 معلومات عامة13 الذكاء العام12 حل الألغاز12 خاص بالمجال7 اتباع التعليمات1

12/12

الترتيب	النموذج	الشركة	عدد خطأ API	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#51	Nemotron 3 Ultra medium	NVIDIA	1	3.7	$0.774	0/1	2.52s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 2.52s
#76	DeepSeek V3.2 medium	DeepSeek	1	3.4	$0.078	0/1	58.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 58.3s
#135	Hy3 preview high	Tencent	1	3.0	$0.048	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 0ms
#153	Hy3 preview low	Tencent	1	3.0	$0.015	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 0ms
#173	DeepSeek V3.2 none	DeepSeek	1	4.7	$0.054	0/1	9.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#186	Laguna M.1 medium	Poolside	1	3.0	$0.033	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 0ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 0ms
#198	Laguna Xs.2 medium	Poolside	1	3.0	$0.015	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 0ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.004 زمن الاستجابة (المتوسط) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 0ms

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: خطأ API

تصفية النماذج

أفضل النماذج حسب عدد خطأ API

عدد خطأ API مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية