ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: عدد الإخفاقات ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.069 زمن الاستجابة (المتوسط) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
إجمالي الاختبارات 19 الاختبارات الخاطئة 10 إجمالي التكلفة $0.033 زمن الاستجابة (المتوسط) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $1.533 زمن الاستجابة (المتوسط) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $1.143 زمن الاستجابة (المتوسط) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.237 زمن الاستجابة (المتوسط) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.515 زمن الاستجابة (المتوسط) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.234 زمن الاستجابة (المتوسط) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.267 زمن الاستجابة (المتوسط) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $0.405 زمن الاستجابة (المتوسط) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.046 زمن الاستجابة (المتوسط) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.779 زمن الاستجابة (المتوسط) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.078 زمن الاستجابة (المتوسط) 68.6s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)