AI BENCHY Compare

Qwen: Qwen3.5-27B vs Xiaomi: MiMo-V2-Pro

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-20

المقياس	Qwen3.5-27B Qwen3.5-27B none الإصدار: 2026-02-24	MiMo-V2-Pro MiMo-V2-Pro none الإصدار: 2026-03-18

المقياس	Qwen3.5-27B Qwen3.5-27B none الإصدار: 2026-02-24	MiMo-V2-Pro MiMo-V2-Pro none الإصدار: 2026-03-18
النتيجة	5.6	5.8
الترتيب	#56	#54
الاتساق	9.1	8.5
اختبارات صحيحة
معدل النجاح لكل محاولة	35.3%	45.1%
اختبارات غير مستقرة	2	3
إجمالي مرات التشغيل	51	51
التكلفة لكل نتيجة	0.303	0.659
إجمالي التكلفة	$0.016	$0.040
??? ???????	$0.195 / 1M	$1.000 / 1M
??? ???????	$1.560 / 1M	$3.000 / 1M
رموز الإخراج	3,164	1,721
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.70s	2.31s
زمن الاستجابة (الحد الأقصى)	9.39s	6.58s
زمن الاستجابة (الإجمالي)	28.82s	39.25s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	4.8	10.0	25.0%	0		788ms	267	0
MiMo-V2-Pro	3.5	8.0	16.7%	1		1.80s	315	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	2.8	1.6	33.3%	1		9.39s	1,461	0
MiMo-V2-Pro	3.0	10.0	0.0%	0		6.58s	333	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	10.0	10.0	100.0%	0		1.43s	243	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		1.39s	249	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	3.0	10.0	0.0%	0		540ms	15	0
MiMo-V2-Pro	5.3	7.2	44.4%	1		1.78s	26	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	5.0	10.0	0.0%	0		2.51s	126	0
MiMo-V2-Pro	4.3	9.9	0.0%	0		2.44s	125	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	4.8	10.0	0.0%	0		815ms	69	0
MiMo-V2-Pro	6.5	10.0	50.0%	0		2.51s	69	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	6.7	7.9	55.6%	1		1.37s	680	0
MiMo-V2-Pro	6.0	7.1	55.6%	1		1.83s	327	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-27B	10.0	10.0	100.0%	0		3.54s	303	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.39s	277	0

مقارنة سريعة

تبديل زوج المقارنة

Mistral Small 4mediumvsQwen3.5-27Bnone MiniMax M2.5mediumمتاح مجانًاvsMiMo-V2-Pronone Mistral Small 4mediumvsMiMo-V2-Pronone gpt-oss-120bmediumمتاح مجانًاvsMiMo-V2-Pronone MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-27Bnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-27Bnone Grok 4.20 Multi-Agent BetamediumvsMiMo-V2-Pronone GPT-5 NanomediumvsMiMo-V2-Pronone Mercury 2mediumvsMiMo-V2-Pronone MiniMax M2.7mediumvsQwen3.5-27Bnone Qwen3.5-27BnonevsGrok 4.20 Multi-Agent Betamedium GPT-5 NanomediumvsQwen3.5-27Bnone