ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

421

النموذج الأكثر تأثرًا

Muse Spark 1.1 3

أسباب الفشل

إجابة خاطئة421 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال421 حيل مضادة للذكاء الاصطناعي293 البرمجة259 حل الألغاز204 معلومات عامة172 مجمّع69 الذكاء العام62 اتباع التعليمات61 تحليل البيانات واستخراجها41 استدعاء الأدوات3

202/202

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.584 زمن الاستجابة (المتوسط) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.307 زمن الاستجابة (المتوسط) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 8.05s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية