AI BENCHY Compare

OpenAI: GPT-4o-mini vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	GPT-4o-mini GPT-4o-mini none الإصدار: 2024-07-18	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
الترتيب	#55	#66
متوسط الدرجة	4.0	2.6
الاتساق	10.0	7.4
التكلفة لكل نتيجة	0.114	0.779
إجمالي التكلفة	$0.005	$0.024
اختبارات صحيحة
معدل النجاح لكل محاولة	25.0%	35.4%
اختبارات غير مستقرة	0	5
إجمالي مرات التشغيل	48	48
رموز الإخراج	1,594	17,930
رموز الاستدلال	0	139,706
زمن الاستجابة (المتوسط)	2.07s	71.44s
زمن الاستجابة (الحد الأقصى)	7.58s	226.38s
زمن الاستجابة (الإجمالي)	18.60s	928.77s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.0	10.0	33.3%	0		1.83s	180	0
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	0.0%	0		7.58s	568	0
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	9.9	10.0	100.0%	0		1.27s	183	0
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	0.0%	0		637ms	15	0
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	3.0	10.0	0.0%	0		909ms	66	0
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	4.5	10.0	0.0%	0		1.27s	69	0
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	2.3	10.0	0.0%	0		1.30s	308	0
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
GPT-4o-mini	10.0	10.0	100.0%	0		2.51s	205	0
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone GPT-4o-mininonevsQwen3 Coder Nextmedium MiniMax M2.5mediumvsGPT-4o-mininone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneمتاح مجانًاvsQwen3.5-9Bmedium GPT-4o-mininonevsGLM 4.7 Flashmedium GPT-4o-mininonevsGrok 4.20 Multi-Agent Betamedium Qwen3.5-9BmediumvsGLM 4.7 Flashnone Mercury 2mediumvsGPT-4o-mininone Kimi K2.5nonevsQwen3.5-9Bmedium GPT-4o-mininonevsQwen3.5-35B-A3Bmedium