AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-122B-A10B

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-06-01

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview low الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24
النتيجة	7.6	7.7
الترتيب	#47	#41
الموثوقية	10.0	10.0
الاتساق	10.0	8.8
اختبارات صحيحة
معدل النجاح لكل محاولة	65.0%	71.7%
اختبارات غير مستقرة	0	3
إجمالي مرات التشغيل	60	60
التكلفة لكل نتيجة	0.186	5.031
إجمالي التكلفة	$0.025	$0.509
سعر الإدخال	$0.250 / 1M	$0.260 / 1M
سعر الإخراج	$1.500 / 1M	$2.080 / 1M
رموز الإخراج	2,280	26,166
رموز الاستدلال	8,829	213,524
زمن الاستجابة (المتوسط)	2.85s	39.40s
زمن الاستجابة (الحد الأقصى)	11.91s	168.16s
زمن الاستجابة (الإجمالي)	57.08s	788.00s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	8.3	10.0	75.0%	0		2.12s	462	1,638
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		1.56s	654	723
Qwen3.5-122B-A10B	4.1	5.8	33.3%	1		119.57s	8,036	45,074

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		11.91s	225	762
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.00s	291	696
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		2.36s	18	1,212
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		1.54s	69	384
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.49s	72	753
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.69s	243	1,248
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	284	27,575

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		9.54s	237	993
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		1.35s	9	420
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	822	15,066

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Flashmedium Gemini 3.1 Flash Lite PreviewlowvsGrok Build 0.1medium Gemini 3.1 Flash Lite PreviewlowvsMimo V2 PROmedium Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5 Plus 2026-04-20medium DeepSeek V4 FlashhighvsQwen3.5-122B-A10Bmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plusmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.3medium