ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: زمن الاستجابة (المتوسط) ↑.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Nemotron 3 Nano Omni 30b A3b Reasoning 9

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 6 إجمالي التكلفة $0.177 زمن الاستجابة (المتوسط) 6.28s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
إجمالي الاختبارات 22 الاختبارات الخاطئة 15 إجمالي التكلفة $0.164 زمن الاستجابة (المتوسط) 6.70s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
إجمالي الاختبارات 19 الاختبارات الخاطئة 13 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 6.73s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 6.88s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.676 زمن الاستجابة (المتوسط) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 7.28s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $1.477 زمن الاستجابة (المتوسط) 7.61s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.015 زمن الاستجابة (المتوسط) 7.64s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.604 زمن الاستجابة (المتوسط) 7.65s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.231 زمن الاستجابة (المتوسط) 7.82s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.661 زمن الاستجابة (المتوسط) 8.12s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
إجمالي الاختبارات 22 الاختبارات الخاطئة 3 إجمالي التكلفة $0.642 زمن الاستجابة (المتوسط) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
إجمالي الاختبارات 22 الاختبارات الخاطئة 14 إجمالي التكلفة $0.048 زمن الاستجابة (المتوسط) 8.42s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
إجمالي الاختبارات 22 الاختبارات الخاطئة 18 إجمالي التكلفة $0.016 زمن الاستجابة (المتوسط) 8.58s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
إجمالي الاختبارات 22 الاختبارات الخاطئة 4 إجمالي التكلفة $0.971 زمن الاستجابة (المتوسط) 8.79s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)