ترتيب خاص بالمجال x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في خاص بالمجال، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↓.

النماذج المعروضة

إجمالي الإخفاقات

412

النموذج الأكثر تأثرًا

Gemini 3.5 Flash 1

أسباب الفشل

إجابة خاطئة412 انتهت المهلة43 تنسيق إضافي17 لا توجد إجابة8 خطأ API7 لم يتبع التعليمات1

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

198/198

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#2	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.976 زمن الاستجابة (المتوسط) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.361 زمن الاستجابة (المتوسط) 32.7s
#9	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 5.24s
#11	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 3.39s
#23	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 20.4s
#28	Inkling high	Thinkingmachines	1	7.7	$1.006	2/3	186.4s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.006 زمن الاستجابة (المتوسط) 186.4s
#29	Step 3.7 Flash medium	Stepfun	1	7.7	$0.515	2/3	48.3s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 48.3s
#44	GPT-5.6 Luna high	OpenAI	1	7.7	$1.017	2/3	79.0s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 79.0s
#59	Qwen3.7 Max none	Qwen	1	7.7	$0.197	2/3	975ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.197 زمن الاستجابة (المتوسط) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	3.54s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 3.54s
#79	Gemini 3.5 Flash none	Google	1	7.6	$1.079	2/3	10.6s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $1.079 زمن الاستجابة (المتوسط) 10.6s
#89	Gemini 3 Flash Preview none	Google	1	7.7	$0.085	2/3	963ms
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.085 زمن الاستجابة (المتوسط) 963ms
#94	Claude Opus 4.7 none	Anthropic	1	7.7	$0.505	2/3	1.19s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.505 زمن الاستجابة (المتوسط) 1.19s
#98	Qwen3.6 Max Preview none	Qwen	1	7.7	$0.231	2/3	1.22s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 1.22s
#110	Gemma 4 31B medium	Google	1	7.7	$0.163	2/3	38.5s
إجمالي الاختبارات 3 الاختبارات الخاطئة 1 إجمالي التكلفة $0.163 زمن الاستجابة (المتوسط) 38.5s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

خاص بالمجال: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية