AI BENCHY Compare

OpenAI: GPT-5.2 Chat vs Xiaomi: MiMo-V2-Pro

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-20

المقياس	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11	MiMo-V2-Pro MiMo-V2-Pro medium الإصدار: 2026-03-18

المقياس	GPT-5.2 Chat GPT-5.2 Chat none الإصدار: 2025-12-11	MiMo-V2-Pro MiMo-V2-Pro medium الإصدار: 2026-03-18
النتيجة	7.8	8.0
الترتيب	#25	#20
الاتساق	8.6	8.5
اختبارات صحيحة
معدل النجاح لكل محاولة	74.5%	76.5%
اختبارات غير مستقرة	3	3
إجمالي مرات التشغيل	51	45
التكلفة لكل نتيجة	2.462	1.110
إجمالي التكلفة	$0.271	$0.123
??? ???????	$1.750 / 1M	$1.000 / 1M
??? ???????	$14.000 / 1M	$3.000 / 1M
رموز الإخراج	16,001	1,875
رموز الاستدلال	0	26,959
زمن الاستجابة (المتوسط)	6.72s	9.78s
زمن الاستجابة (الحد الأقصى)	38.52s	64.71s
زمن الاستجابة (الإجمالي)	114.20s	156.45s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	8.7	7.9	91.7%	1		3.40s	1,807	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		3.06s	223	1,107

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		9.12s	1,243	0
MiMo-V2-Pro	4.7	1.6	66.7%	1		64.71s	380	14,186

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		3.05s	980	0
MiMo-V2-Pro	7.3	5.8	83.3%	1		17.20s	260	7,484

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	5.3	10.0	33.3%	0		17.78s	7,810	0
MiMo-V2-Pro	5.3	10.0	33.3%	0		6.00s	155	1,048

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	4.4	3.0	33.3%	1		3.20s	335	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		4.06s	198	424

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	7.5	6.1	83.3%	1		5.46s	1,528	0
MiMo-V2-Pro	9.9	10.0	100.0%	0		3.36s	83	667

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	7.7	10.0	66.7%	0		4.42s	1,743	0
MiMo-V2-Pro	7.0	7.2	55.6%	1		4.71s	313	1,179

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-5.2 Chat	10.0	10.0	100.0%	0		4.68s	555	0
MiMo-V2-Pro	10.0	10.0	100.0%	0		8.19s	263	864

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3 Flash PreviewnonevsMiMo-V2-Promedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2-Promedium GPT-5.2 ChatnonevsStep 3.5 Flashmediumمتاح مجانًا GPT-5.2 ChatnonevsGrok 4.20 Betamedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Promedium GPT-5.2 ChatnonevsQwen3.5-Flashmedium GPT-5.2 ChatnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone GPT-5.2 ChatnonevsGLM 5 Turbomedium Claude Opus 4.6mediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone