ترتيب الذكاء العام x إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي هي الأكثر عرضة لظهور إجابة خاطئة في الذكاء العام، حتى ترصد نقاط الضعف بسرعة أكبر. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

النموذج الأكثر تأثرًا

Granite 4.1 8B 1

أسباب الفشل

لم يتبع التعليمات78 إجابة خاطئة59 خطأ API12 انتهت المهلة4

الفئات

خاص بالمجال412 حيل مضادة للذكاء الاصطناعي293 البرمجة252 حل الألغاز201 معلومات عامة168 مجمّع68 اتباع التعليمات61 الذكاء العام59 تحليل البيانات واستخراجها41 استدعاء الأدوات3

59/59

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	درجة الفئة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#201	Granite 4.1 8B none	IBM Granite	1	4.0	$0.007	0/1	499ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.007 زمن الاستجابة (المتوسط) 499ms
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 529ms
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 615ms
#197	Grok 4.20 none	X AI	1	4.8	$0.057	0/1	659ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.057 زمن الاستجابة (المتوسط) 659ms
#165	Mistral Small 4 none	Mistral	1	4.0	$0.022	0/1	729ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.022 زمن الاستجابة (المتوسط) 729ms
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 790ms
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.147 زمن الاستجابة (المتوسط) 859ms
#174	GPT-4o-mini none	OpenAI	1	4.0	$0.010	0/1	909ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.010 زمن الاستجابة (المتوسط) 909ms
#177	Nemotron 3 Super none	NVIDIA	1	4.6	$0.008	0/1	950ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 950ms
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.046 زمن الاستجابة (المتوسط) 992ms
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.142 زمن الاستجابة (المتوسط) 1.00s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.349 زمن الاستجابة (المتوسط) 1.03s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.621 زمن الاستجابة (المتوسط) 1.37s
#178	Ling-2.6-flash none	Inclusionai	1	4.0	$0.002	0/1	1.45s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 1.45s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
إجمالي الاختبارات 1 الاختبارات الخاطئة 1 إجمالي التكلفة $0.524 زمن الاستجابة (المتوسط) 1.52s

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية

الذكاء العام: إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)

أفضل النماذج حسب التكلفة المهدرة التقديرية