ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.047 زمن الاستجابة (المتوسط) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.019 زمن الاستجابة (المتوسط) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.044 زمن الاستجابة (المتوسط) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 464ms

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية