ترتيب الذكاء العام x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

North Mini Code 1

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

59/59

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#171	North Mini Code none	Cohere	1	3.9	$0.000	0/1	34.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 34.8s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	4.9	$0.317	0/1	25.3s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.317 زمن الاستجابة (المتوسط) 25.3s
#137	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 25.1s
#150	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.044	0/1	23.7s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 23.7s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.391 زمن الاستجابة (المتوسط) 22.5s
#48	Grok Build 0.1 medium	X AI	1	4.4	$1.097	0/1	18.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 18.4s
#194	GLM 4.7 Flash medium	Z.ai	1	3.6	$0.166	0/1	18.1s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.166 زمن الاستجابة (المتوسط) 18.1s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.469 زمن الاستجابة (المتوسط) 17.0s
#60	LongCat 2.0 medium	Meituan	1	4.8	$0.478	0/1	16.4s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.478 زمن الاستجابة (المتوسط) 16.4s
#179	Ring-2.6-1T none	Inclusionai	1	4.3	$0.026	0/1	15.6s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.026 زمن الاستجابة (المتوسط) 15.6s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.095 زمن الاستجابة (المتوسط) 13.5s
#22	Grok 4.5 medium	X AI	1	6.5	$1.928	0/1	12.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $1.928 زمن الاستجابة (المتوسط) 12.8s
#202	Grok Build 0.1 none	X AI	1	4.3	$0.547	0/1	12.5s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.547 زمن الاستجابة (المتوسط) 12.5s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	1	5.0	$0.067	0/1	12.0s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 12.0s
#206	gpt-oss-120b none	OpenAI	1	4.8	$0.010	0/1	10.8s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 10.8s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية