ترتيب تحليل البيانات واستخراجها x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في تحليل البيانات واستخراجها، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Qwen3 Coder Next 1

أسباب الفشل

إجابة خاطئة41 خطأ API14 لا توجد إجابة8 تنسيق إضافي6 انتهت المهلة1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

36/36

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.032 زمن الاستجابة (المتوسط) 81.8s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 45.9s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.127 زمن الاستجابة (المتوسط) 42.1s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.103 زمن الاستجابة (المتوسط) 37.4s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 21.9s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.114 زمن الاستجابة (المتوسط) 21.4s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 18.8s
#188	Cobuddy medium	Baidu	1	6.3	$0.000	1/2	17.4s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 17.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.333 زمن الاستجابة (المتوسط) 17.2s
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 12.3s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 11.0s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.054 زمن الاستجابة (المتوسط) 9.42s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 9.33s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
إجمالي الاختبارات 2 الاختبارات الخاطئة 1 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 8.48s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
إجمالي الاختبارات 2 الاختبارات الخاطئة 2 إجمالي التكلفة $0.340 زمن الاستجابة (المتوسط) 7.48s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

تحليل البيانات واستخراجها: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية