AI BENCHY Compare

MiniMax: MiniMax M2.5 vs OpenAI: gpt-oss-120b

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-11

المقياس	MiniMax M2.5 MiniMax M2.5 medium الإصدار: 2026-02-12 متاح مجانًا	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا

المقياس	MiniMax M2.5 MiniMax M2.5 medium الإصدار: 2026-02-12 متاح مجانًا	gpt-oss-120b gpt-oss-120b none الإصدار: 2025-08-05 متاح مجانًا
النتيجة	5.7	5.2
الترتيب	#67	#79
الاتساق	5.6	7.9
اختبارات صحيحة
معدل النجاح لكل محاولة	57.4%	38.9%
اختبارات غير مستقرة	10	5
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	4.987	0.221
إجمالي التكلفة	$0.250	$0.009
??? ???????	$0.118 / 1M	$0.039 / 1M
??? ???????	$0.991 / 1M	$0.190 / 1M
رموز الإخراج	107,044	44,652
رموز الاستدلال	206,422	0
زمن الاستجابة (المتوسط)	39.65s	11.96s
زمن الاستجابة (الحد الأقصى)	237.27s	68.97s
زمن الاستجابة (الإجمالي)	396.47s	179.34s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	7.9	6.3	83.3%	2		20.82s	286	45,344
gpt-oss-120b	6.6	8.0	58.3%	1		6.03s	4,867	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	3.0	10.0	0.0%	0		0ms	0	0
gpt-oss-120b	4.3	1.1	66.7%	1		9.57s	3,232	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	4.5	2.1	66.7%	1		60.39s	740	9,713
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	4.6	1.7	66.7%	2		7.48s	266	3,835
gpt-oss-120b	6.5	10.0	50.0%	0		7.12s	598	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	2.9	4.4	22.2%	2		237.27s	105,047	133,487
gpt-oss-120b	3.0	10.0	0.0%	0		34.98s	29,483	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	3.8	2.5	33.3%	1		6.63s	25	1,686
gpt-oss-120b	4.6	10.0	0.0%	0		2.83s	586	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	8.1	6.8	83.3%	1		4.64s	252	1,873
gpt-oss-120b	8.4	6.9	83.3%	1		5.10s	1,982	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	5.3	7.2	44.4%	1		11.54s	159	9,547
gpt-oss-120b	4.5	4.8	44.5%	2		6.86s	3,904	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax M2.5	10.0	10.0	100.0%	0		15.35s	269	937
gpt-oss-120b	3.0	10.0	0.0%	0		0ms	0	0

مقارنة سريعة

تبديل زوج المقارنة

MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-122B-A10Bnone MiniMax M2.7mediumvsgpt-oss-120bnoneمتاح مجانًا MiniMax M2.5mediumمتاح مجانًاvsGLM 4.7 Flashnone MiniMax M2.5mediumمتاح مجانًاvsGLM 5.1none MiniMax M2.5mediumمتاح مجانًاvsKimi K2.5none MiniMax M2.5mediumمتاح مجانًاvsGLM 5 Turbonone MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-27Bnone MiniMax M2.5mediumمتاح مجانًاvsGPT-5.4none MiniMax M2.5mediumمتاح مجانًاvsMiMo-V2-Pronone Trinity Large Previewnoneمتاح مجانًاvsMiniMax M2.5mediumمتاح مجانًا DeepSeek V3.2nonevsMiniMax M2.5mediumمتاح مجانًا MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-35B-A3Bnone