AI BENCHY Compare

Qwen3.6 Plus Preview vs Xiaomi: MiMo-V2.5

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-22

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-03-30 متاح مجانًا	MiMo-V2.5 MiMo-V2.5 none الإصدار: 2026-04-22

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-03-30 متاح مجانًا	MiMo-V2.5 MiMo-V2.5 none الإصدار: 2026-04-22
النتيجة	8.5	5.1
الترتيب	#9	#92
الاتساق	10.0	10.0
اختبارات صحيحة
معدل النجاح لكل محاولة	76.5%	27.8%
اختبارات غير مستقرة	0	0
إجمالي مرات التشغيل	49	54
التكلفة لكل نتيجة	0.000	0.368
إجمالي التكلفة	$0.000	$0.019
??? ???????	$0.000 / 1M	$0.400 / 1M
??? ???????	$0.000 / 1M	$2.000 / 1M
رموز الإخراج	1,756	2,177
رموز الاستدلال	77,213	0
زمن الاستجابة (المتوسط)	13.94s	1.05s
زمن الاستجابة (الحد الأقصى)	43.55s	2.43s
زمن الاستجابة (الإجمالي)	237.01s	18.94s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		9.90s	207	7,557
MiMo-V2.5	4.8	10.0	25.0%	0		842ms	232	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		34.95s	452	13,073
MiMo-V2.5	3.0	10.0	0.0%	0		2.36s	330	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	270	10,706
MiMo-V2.5	6.5	10.0	50.0%	0		1.01s	366	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	49	26,895
MiMo-V2.5	3.0	10.0	0.0%	0		756ms	27	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	5.1	10.0	0.0%	0		27.05s	111	5,232
MiMo-V2.5	4.6	10.0	0.0%	0		841ms	97	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		7.54s	102	5,552
MiMo-V2.5	6.5	10.0	50.0%	0		751ms	72	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		6.11s	298	6,868
MiMo-V2.5	3.4	10.0	0.0%	0		731ms	162	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	267	1,330
MiMo-V2.5	10.0	10.0	100.0%	0		2.43s	231	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	-	-	-	-	-	-	-	-
MiMo-V2.5	10.0	10.0	100.0%	0		1.95s	660	0

مقارنة سريعة

تبديل زوج المقارنة

Elephant AlphamediumvsMiMo-V2.5none MiniMax M2.7mediumvsMiMo-V2.5none Gemini 3 Flash PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا Qwen3 Coder NextmediumvsMiMo-V2.5none MiMo-V2.5nonevsGLM 4.7 Flashmedium GPT-5.2 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Mistral Small 4mediumvsMiMo-V2.5none MiniMax M2.5mediumمتاح مجانًاvsMiMo-V2.5none Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا