ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 9

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#174	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.025 زمن الاستجابة (المتوسط) 4.62s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
إجمالي الاختبارات 18 الاختبارات الخاطئة 12 إجمالي التكلفة $0.000 زمن الاستجابة (المتوسط) 4.70s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.090 زمن الاستجابة (المتوسط) 4.76s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $1.166 زمن الاستجابة (المتوسط) 4.91s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.249 زمن الاستجابة (المتوسط) 5.04s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.187 زمن الاستجابة (المتوسط) 5.15s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.044 زمن الاستجابة (المتوسط) 5.18s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 5.31s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.021 زمن الاستجابة (المتوسط) 5.34s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.061 زمن الاستجابة (المتوسط) 5.52s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
إجمالي الاختبارات 22 الاختبارات الخاطئة 3 إجمالي التكلفة $0.433 زمن الاستجابة (المتوسط) 5.55s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
إجمالي الاختبارات 22 الاختبارات الخاطئة 17 إجمالي التكلفة $0.008 زمن الاستجابة (المتوسط) 5.97s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.369 زمن الاستجابة (المتوسط) 6.01s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.548 زمن الاستجابة (المتوسط) 6.04s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 13 إجمالي التكلفة $0.017 زمن الاستجابة (المتوسط) 6.20s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)