قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

MiniMax: MiniMax M2.5 vs OpenAI: GPT-5.4

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	MiniMax: MiniMax M2.5 medium الإصدار: 2026-02-12	OpenAI: GPT-5.4 none الإصدار: 2026-03-05
الترتيب	#42	#44
متوسط الدرجة	48	46
الاتساق	58	89
التكلفة لكل نتيجة	4.937	1.496
إجمالي التكلفة	$0.247	$0.090
زمن الاستجابة (المتوسط)	47.58s	1.46s
زمن الاستجابة (الحد الأقصى)	237.27s	2.89s
زمن الاستجابة (الإجمالي)	380.62s	21.86s
اختبارات صحيحة
معدل النجاح لكل محاولة	62.2%	44.4%
اختبارات غير مستقرة	8	2
رموز الإخراج	107,019	1,635
رموز الاستدلال	204,504	0

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	93	79	88.9%	1		32.42s	286	45,112
OpenAI: GPT-5.4	100	73	11.1%	1		1.41s	388	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	100	21	66.7%	1		60.39s	740	9,713
OpenAI: GPT-5.4	100	100	0.0%	0		2.89s	291	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	100	17	66.7%	2		7.48s	266	3,835
OpenAI: GPT-5.4	99	100	100.0%	0		1.04s	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	100	44	22.2%	2		237.27s	105,047	133,487
OpenAI: GPT-5.4	40	72	44.4%	1		1.07s	50	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	80	68	83.3%	1		4.64s	252	1,873
OpenAI: GPT-5.4	55	100	50.0%	0		1.07s	81	0

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	40	72	44.4%	1		11.54s	159	9,547
OpenAI: GPT-5.4	40	98	33.3%	0		1.52s	357	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
MiniMax: MiniMax M2.5	100	100	100.0%	0		15.35s	269	937
OpenAI: GPT-5.4	100	100	100.0%	0		2.75s	246	0

مقارنة سريعة

تبديل زوج المقارنة

MiniMax M2.5mediumvsQwen3.5-27Bnone MiniMax M2.5mediumvsQwen3.5-35B-A3Bnone MiniMax M2.5mediumvsQwen3.5-Flashnone MiniMax M2.5mediumvsQwen3.5-122B-A10Bnone DeepSeek V3.2nonevsMiniMax M2.5medium Gemini 2.5 FlashnonevsMiniMax M2.5medium Trinity Large Preview (free)noneمتاح مجانًاvsMiniMax M2.5medium MiniMax M2.5mediumvsGPT-4o-mininone Mercury 2mediumvsGPT-5.4none MiniMax M2.5mediumvsGLM 4.7 Flashnone MiniMax M2.5mediumvsGLM 5none MiniMax M2.5mediumvsKimi K2.5none