ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#2	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 32.7s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 5.24s
#11	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 3.39s
#21	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.951 زمن الاستجابة (المتوسط) 77.8s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 20.4s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 186.4s
#29	Step 3.7 Flash medium	Stepfun	1	7.7	$0.515	2/3	48.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 48.3s
#31	GLM 5.2 high	Z.ai	1	3.7	$0.970	0/3	74.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.970 زمن الاستجابة (المتوسط) 74.0s
#38	GLM 5.2 medium	Z.ai	1	4.1	$0.222	0/3	45.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $0.222 زمن الاستجابة (المتوسط) 45.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $2.057 زمن الاستجابة (المتوسط) 0ms
#43	Claude Opus 4.6 medium	Anthropic	1	3.0	$3.059	0/3	83.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 3 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 83.4s
#44	GPT-5.6 Luna high	OpenAI	1	7.7	$1.017	2/3	79.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 79.0s
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 158.0s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	$0.437	1/3	17.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 2 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 17.5s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية