ترتيب الذكاء العام x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: اختبارات صحيحة ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Grok 4.5 1

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

59/59

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#20	Grok 4.5 low	X AI	1	6.1	$0.935	0/1	4.88s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.935 زمن الاستجابة (المتوسط) 4.88s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 12.8s
#29	Step 3.7 Flash medium	Stepfun	1	4.0	$0.515	0/1	6.85s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 6.85s
#34	GPT-5.6 Terra high	OpenAI	1	5.1	$1.055	0/1	3.03s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 3.03s
#39	GPT-5.6 Terra medium	OpenAI	1	5.5	$0.676	0/1	2.37s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 2.37s
#44	GPT-5.6 Luna high	OpenAI	1	5.0	$1.017	0/1	3.65s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 3.65s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 18.4s
#49	GLM 5 Turbo medium	Z.ai	1	6.1	$0.323	0/1	10.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 10.1s
#50	GPT-5.6 Luna medium	OpenAI	1	5.1	$0.352	0/1	4.34s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 4.34s
#55	GPT-5.6 Terra low	OpenAI	1	4.8	$0.519	0/1	3.52s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 3.52s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 16.4s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	1	4.1	$0.387	0/1	2.32s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.387 زمن الاستجابة (المتوسط) 2.32s
#67	Step 3.7 Flash low	Stepfun	1	3.4	$0.454	0/1	7.00s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.454 زمن الاستجابة (المتوسط) 7.00s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	1	5.1	$0.482	0/1	3.27s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.482 زمن الاستجابة (المتوسط) 3.27s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 25.3s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية