ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.009 زمن الاستجابة (المتوسط) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 35.0s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية