ترتيب الذكاء العام x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

59/59

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.738 زمن الاستجابة (المتوسط) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.207 زمن الاستجابة (المتوسط) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.476 زمن الاستجابة (المتوسط) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.151 زمن الاستجابة (المتوسط) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.068 زمن الاستجابة (المتوسط) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.073 زمن الاستجابة (المتوسط) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 615ms

←

1 2 3 4

→

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية