AI BENCHY Compare

OpenAI: GPT-4o-mini vs Qwen: Qwen3.5-122B-A10B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-19

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none الإصدار: 2026-02-24

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Qwen3.5-122B-A10B Qwen3.5-122B-A10B none الإصدار: 2026-02-24
النتيجة	4.9	5.5
الترتيب	#134	#117
الموثوقية	10.0	10.0
الاتساق	9.9	9.2
اختبارات صحيحة
معدل النجاح لكل محاولة	26.3%	36.8%
اختبارات غير مستقرة	0	2
إجمالي مرات التشغيل	57	57
التكلفة لكل نتيجة	0.099	0.361
إجمالي التكلفة	$0.005	$0.022
??? ???????	$0.150 / 1M	$0.260 / 1M
??? ???????	$0.600 / 1M	$2.080 / 1M
رموز الإخراج	1,962	3,350
رموز الاستدلال	0	0
زمن الاستجابة (المتوسط)	1.90s	3.52s
زمن الاستجابة (الحد الأقصى)	7.58s	46.00s
زمن الاستجابة (الإجمالي)	22.79s	66.80s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.8	10.0	25.0%	0		1.34s	186	0
Qwen3.5-122B-A10B	4.8	10.0	25.0%	0		1.59s	312	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	8.7	0.0%	0		2.55s	347	0
Qwen3.5-122B-A10B	4.3	1.1	66.7%	1		3.44s	659	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		7.58s	568	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		46.00s	1,137	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		1.27s	183	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		1.01s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		637ms	15	0
Qwen3.5-122B-A10B	5.3	10.0	33.3%	0		465ms	15	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.0	10.0	0.0%	0		909ms	66	0
Qwen3.5-122B-A10B	5.0	10.0	0.0%	0		1.12s	66	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	6.3	10.0	50.0%	0		1.27s	69	0
Qwen3.5-122B-A10B	6.3	10.0	50.0%	0		585ms	70	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.5	10.0	0.0%	0		1.30s	308	0
Qwen3.5-122B-A10B	3.7	7.7	11.1%	1		982ms	575	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		2.04s	264	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		794ms	15	0
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		295ms	9	0

مقارنة سريعة

تبديل زوج المقارنة

Elephant AlphamediumvsQwen3.5-122B-A10Bnone Mistral Small 4mediumvsQwen3.5-122B-A10Bnone MiniMax M2.5mediumمتاح مجانًاvsQwen3.5-122B-A10Bnone GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.7mediumvsGPT-4o-mininone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-122B-A10Bnone Cobuddymediumمتاح مجانًاvsQwen3.5-122B-A10Bnone MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone GPT-4o-mininonevsGLM 4.7 Flashmedium Owl AlphamediumvsQwen3.5-122B-A10Bnone GPT-4o-mininonevsElephant Alphamedium Mistral Small 4mediumvsGPT-4o-mininone