ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 9

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.087 زمن الاستجابة (المتوسط) 10.7s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 16 إجمالي التكلفة $0.002 زمن الاستجابة (المتوسط) 10.7s
#173	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 10.8s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.055 زمن الاستجابة (المتوسط) 11.3s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.316 زمن الاستجابة (المتوسط) 11.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.647 زمن الاستجابة (المتوسط) 11.5s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.096 زمن الاستجابة (المتوسط) 11.6s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.234 زمن الاستجابة (المتوسط) 11.7s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
إجمالي الاختبارات 21 الاختبارات الخاطئة 13 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 11.9s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 11 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.1s
#188	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.067 زمن الاستجابة (المتوسط) 12.2s
#17	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.931 زمن الاستجابة (المتوسط) 12.5s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.922 زمن الاستجابة (المتوسط) 12.5s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.106 زمن الاستجابة (المتوسط) 12.7s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $2.077 زمن الاستجابة (المتوسط) 12.7s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)