AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-122B-A10B

الملخص

مقارنة benchmark بين Gemini 3.1 Flash Lite Preview (medium) و Qwen3.5-122B-A10B (medium): متوسط النتيجة متقارب جدًا عند 7.8 مقابل 7.7. لدى Gemini 3.1 Flash Lite Preview (medium) تكلفة benchmark أقل عند $0.068 مقابل $0.588. Gemini 3.1 Flash Lite Preview (medium) أسرع عند 3.96s مقابل 42.49s، مع معدلات نجاح 61.9% مقابل 73.0%.

النموذج الموصى به: Gemini 3.1 Flash Lite Preview (medium) - It has the best score here (7.8), while costing about 8.7x less than Qwen3.5-122B-A10B (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-10

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24

المقياس	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium الإصدار: 2026-03-03	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium الإصدار: 2026-02-24
النتيجة	7.8	7.7
الترتيب	#41	#45
الموثوقية	10.0	10.0
الاتساق	10.0	8.8
اختبارات صحيحة
معدل النجاح لكل محاولة	61.9%	73.0%
اختبارات غير مستقرة	0	3
إجمالي مرات التشغيل	63	63
التكلفة لكل نتيجة	0.523	5.235
إجمالي التكلفة	$0.068	$0.588
سعر الإدخال	$0.250 / 1M	$0.260 / 1M
سعر الإخراج	$1.500 / 1M	$2.080 / 1M
إجمالي رموز الإدخال	37,786	41,832
رموز الإخراج	2,210	26,187
رموز الاستدلال	36,744	251,028
زمن الاستجابة (المتوسط)	3.96s	42.49s
زمن الاستجابة (الحد الأقصى)	14.93s	168.16s
زمن الاستجابة (الإجمالي)	83.06s	892.30s

عرض إنشاء

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#41 Gemini 3.1 Flash Lite Preview

medium

التكلفة: $0.003
الوقت: 5.2s
الرموز: 1,944 tok

#45 Qwen3.5-122B-A10B

medium

التكلفة: $0.019
الوقت: 48.7s
الرموز: 6,034 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	13,403	327	7,347
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium GPT-5.6 TerralowvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewmediumvsGrok 4.5low Claude Opus 4.8lowvsGemini 3.1 Flash Lite Previewmedium Qwen3.5-122B-A10BmediumvsStep 3.7 Flashlow GPT-5.6 LunahighvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.6 Terralow Qwen3.5-122B-A10BmediumvsGrok 4.5low Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.6 Lunahigh DeepSeek V4 ProhighvsQwen3.5-122B-A10Bmedium DeepSeek V4 ProhighvsGemini 3.1 Flash Lite Previewmedium