قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Qwen: Qwen3.5-35B-A3B

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Google: Gemini 3.1 Flash Lite Preview none الإصدار: 2026-03-03	Qwen: Qwen3.5-35B-A3B medium الإصدار: 2026-02-24
متوسط الدرجة	7.4	5.8
الترتيب	#21	#34
اختبارات صحيحة
الاتساق	9.6	6.7
التكلفة لكل نتيجة	0.142	4.189
إجمالي التكلفة	$0.015	$0.336
معدل النجاح لكل محاولة	71.1%	80.0%
اختبارات غير مستقرة	1	6
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	4,646	5,475
رموز الاستدلال	0	165,513
زمن الاستجابة (المتوسط)	1.37s	44.84s
زمن الاستجابة (الحد الأقصى)	3.39s	106.00s
زمن الاستجابة (الإجمالي)	20.53s	672.55s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	6.0	7.8	55.6%	1		1.16s	1,086	0
Qwen: Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.75s	429	36,235

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	0.0%	0		3.20s	339	0
Qwen: Qwen3.5-35B-A3B	10.0	1.6	66.7%	1		75.34s	775	12,485

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	9.9	10.0	100.0%	0		1.22s	399	0
Qwen: Qwen3.5-35B-A3B	5.5	5.9	83.3%	1		59.33s	235	19,493

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	4.0	10.0	33.3%	0		942ms	568	0
Qwen: Qwen3.5-35B-A3B	10.0	4.4	44.5%	2		88.34s	41	46,368

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	574	0
Qwen: Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		972ms	898	0
Qwen: Qwen3.5-35B-A3B	4.0	4.4	77.8%	2		31.58s	3,589	32,206

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Google: Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	782	0
Qwen: Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5-35B-A3BmediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmediumمتاح مجانًا Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Seed-2.0-MinimediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium DeepSeek V3.2nonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium