ترتيب إخفاقات إجابة خاطئة

اكتشف أي نماذج الذكاء الاصطناعي تواجه إجابة خاطئة أكثر من غيرها، حتى ترى مخاطر الاعتمادية قبل الاختيار. الترتيب حسب: النتيجة ↓.

النماذج المعروضة

إجمالي الإخفاقات

1585

النموذج الأكثر تأثرًا

Gemini 3.6 Flash 1

الفئات

ضمن الفئة خاص بالمجال421 ضمن الفئة حيل مضادة للذكاء الاصطناعي293 ضمن الفئة البرمجة259 ضمن الفئة حل الألغاز204 ضمن الفئة معلومات عامة172 ضمن الفئة مجمّع69 ضمن الفئة الذكاء العام62 ضمن الفئة اتباع التعليمات61 ضمن الفئة تحليل البيانات واستخراجها41 ضمن الفئة استدعاء الأدوات3

215/215

الترتيب	النموذج	الشركة	عدد إجابة خاطئة	النتيجة	إجمالي التكلفة	اختبارات صحيحة	زمن الاستجابة (المتوسط)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $3.059 زمن الاستجابة (المتوسط) 34.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 7 إجمالي التكلفة $1.017 زمن الاستجابة (المتوسط) 18.7s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.041 زمن الاستجابة (المتوسط) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 12 إجمالي التكلفة $0.200 زمن الاستجابة (المتوسط) 79.1s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.286 زمن الاستجابة (المتوسط) 75.0s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $1.097 زمن الاستجابة (المتوسط) 52.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
إجمالي الاختبارات 21 الاختبارات الخاطئة 7 إجمالي التكلفة $0.323 زمن الاستجابة (المتوسط) 23.0s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.352 زمن الاستجابة (المتوسط) 7.28s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.774 زمن الاستجابة (المتوسط) 32.2s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.740 زمن الاستجابة (المتوسط) 84.2s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.138 زمن الاستجابة (المتوسط) 13.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.571 زمن الاستجابة (المتوسط) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
إجمالي الاختبارات 22 الاختبارات الخاطئة 9 إجمالي التكلفة $0.519 زمن الاستجابة (المتوسط) 5.31s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
إجمالي الاختبارات 22 الاختبارات الخاطئة 10 إجمالي التكلفة $0.756 زمن الاستجابة (المتوسط) 25.9s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
إجمالي الاختبارات 22 الاختبارات الخاطئة 8 إجمالي التكلفة $0.437 زمن الاستجابة (المتوسط) 89.2s

إخفاقات إجابة خاطئة

تصفية النماذج

أفضل النماذج حسب عدد إجابة خاطئة

عدد إجابة خاطئة مقابل النتيجة

أفضل النماذج حسب زمن الاستجابة (المتوسط)