AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs Qwen: Qwen3.5-9B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02

المقياس	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium الإصدار: 2026-02-19	Qwen3.5-9B Qwen3.5-9B medium الإصدار: 2026-03-02
الترتيب	#2	#66
متوسط الدرجة	9.4	2.6
الاتساق	10.0	7.4
التكلفة لكل نتيجة	3.417	0.779
إجمالي التكلفة	$0.513	$0.024
اختبارات صحيحة
معدل النجاح لكل محاولة	93.8%	35.4%
اختبارات غير مستقرة	0	5
إجمالي مرات التشغيل	48	48
رموز الإخراج	1,521	17,930
رموز الاستدلال	35,656	139,706
زمن الاستجابة (المتوسط)	16.60s	71.44s
زمن الاستجابة (الحد الأقصى)	40.61s	226.38s
زمن الاستجابة (الإجمالي)	149.36s	928.77s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533
Qwen3.5-9B	4.0	7.2	55.6%	1		31.54s	2,410	10,913

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281
Qwen3.5-9B	10.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904
Qwen3.5-9B	5.0	5.6	33.3%	1		87.31s	1,383	32,113

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424
Qwen3.5-9B	10.0	7.2	22.2%	1		137.75s	11,549	48,475

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
Qwen3.5-9B	10.0	1.6	33.3%	1		226.38s	0	30,695

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
Qwen3.5-9B	5.5	5.8	66.7%	1		17.15s	599	4,517

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
Qwen3.5-9B	10.0	10.0	0.0%	0		33.38s	1,545	11,844

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
Qwen3.5-9B	10.0	10.0	100.0%	0		4.31s	444	1,149

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5-9BmediumvsMiMo-V2-Flashnone Qwen3.5-9BmediumvsGrok 4.1 Fastnone Mercury 2nonevsQwen3.5-9Bmedium Nemotron 3 Super 120b A12bnoneمتاح مجانًاvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGLM 4.7 Flashnone GPT-4o-mininonevsQwen3.5-9Bmedium Kimi K2.5nonevsQwen3.5-9Bmedium Trinity Large Previewnoneمتاح مجانًاvsQwen3.5-9Bmedium Qwen3.5-9BmediumvsGrok 4.20 Betanone GPT-5.4nonevsQwen3.5-9Bmedium Hunter AlphanonevsQwen3.5-9Bmedium Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone