ترتيب تحليل البيانات واستخراجها x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Granite 4.1 8B 2

أسباب الفشل

إجابة خاطئة41 خطأ API14 لا توجد إجابة8 تنسيق إضافي6 انتهت المهلة1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

36/36

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.030 زمن الاستجابة (المتوسط) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.001 زمن الاستجابة (المتوسط) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.093 زمن الاستجابة (المتوسط) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 2.72s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

تحليل البيانات واستخراجها: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية