AI BENCHY Compare

Mistral: Mistral Small 4 vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-17

المقياس	Mistral Small 4 Mistral Small 4 none الإصدار: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	Mistral Small 4 Mistral Small 4 none الإصدار: 2026-03-16	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
الترتيب	#61	#70
النتيجة	5.3	4.5
الاتساق	9.5	7.0
التكلفة لكل نتيجة	0.108	0.787
إجمالي التكلفة	$0.006	$0.024
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	35.3%
اختبارات غير مستقرة	1	6
إجمالي مرات التشغيل	51	51
رموز الإخراج	1,624	18,141
رموز الاستدلال	0	141,204
زمن الاستجابة (المتوسط)	629ms	69.21s
زمن الاستجابة (الحد الأقصى)	1.72s	226.38s
زمن الاستجابة (الإجمالي)	10.70s	968.99s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	3.4	7.9	16.7%	1		395ms	182	0
Qwen3.5-9B	5.1	5.8	50.0%	2		34.44s	2,621	12,411

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	3.0	10.0	0.0%	0		1.72s	496	0
Qwen3.5-9B	3.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	10.0	10.0	100.0%	0		822ms	261	0
Qwen3.5-9B	3.6	5.6	33.3%	1		87.31s	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	5.3	10.0	33.3%	0		367ms	28	0
Qwen3.5-9B	3.6	7.2	22.2%	1		137.75s	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	4.0	10.0	0.0%	0		729ms	205	0
Qwen3.5-9B	2.8	1.6	33.3%	1		226.38s	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	6.5	10.0	50.0%	0		380ms	69	0
Qwen3.5-9B	6.4	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	3.1	9.9	0.0%	0		589ms	170	0
Qwen3.5-9B	3.1	10.0	0.0%	0		33.38s	1,545	11,844

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Mistral Small 4	10.0	10.0	100.0%	0		1.40s	213	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5-9BmediumvsGrok 4.1 Fastnone Qwen3.5-9BmediumvsMiMo-V2-Flashnone GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 MininonevsQwen3.5-9Bmedium Mercury 2nonevsQwen3.5-9Bmedium Mistral Small 4nonevsQwen3 Coder Nextmedium GPT-4o-mininonevsQwen3.5-9Bmedium Mistral Small 4nonevsGLM 4.7 Flashmedium MiniMax M2.5mediumمتاح مجانًاvsMistral Small 4none Nemotron 3 Super 120b A12bnoneمتاح مجانًاvsQwen3.5-9Bmedium Mistral Small 4nonevsgpt-oss-120bmediumمتاح مجانًا Trinity Large Previewnoneمتاح مجانًاvsQwen3.5-9Bmedium