AI BENCHY Compare

Qwen: Qwen3.5-Flash vs xAI: Grok 4.20 Beta

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-12

المقياس	Qwen3.5-Flash Qwen3.5-Flash none الإصدار: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12

المقياس	Qwen3.5-Flash Qwen3.5-Flash none الإصدار: 2026-02-24	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12
الترتيب	#41	#24
متوسط الدرجة	5.2	7.0
الاتساق	9.6	9.0
التكلفة لكل نتيجة	0.077	5.989
إجمالي التكلفة	$0.006	$0.599
اختبارات صحيحة
معدل النجاح لكل محاولة	45.8%	70.8%
اختبارات غير مستقرة	1	2
إجمالي مرات التشغيل	48	48
رموز الإخراج	3,774	1,481
رموز الاستدلال	0	86,628
زمن الاستجابة (المتوسط)	3.54s	8.89s
زمن الاستجابة (الحد الأقصى)	13.73s	24.21s
زمن الاستجابة (الإجمالي)	56.70s	142.18s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

متوسط الدرجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	2.3	7.8	11.1%	1		1.62s	687	0
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.19s	262	6,289

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	10.0	10.0	0.0%	0		6.22s	1,794	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	9.9	10.0	100.0%	0		1.57s	243	0
Grok 4.20 Beta	9.9	10.0	100.0%	0		4.01s	180	5,281

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	7.0	10.0	66.7%	0		905ms	15	0
Grok 4.20 Beta	4.0	10.0	33.3%	0		21.33s	251	40,255

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	10.0	10.0	100.0%	0		803ms	100	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	5.0	10.0	50.0%	0		8.81s	63	0
Grok 4.20 Beta	9.0	10.0	50.0%	0		4.97s	57	7,107

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	1.3	10.0	0.0%	0		5.90s	608	0
Grok 4.20 Beta	7.0	7.2	88.9%	1		3.85s	249	6,660

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.5-Flash	10.0	10.0	100.0%	0		3.67s	264	0
Grok 4.20 Beta	10.0	10.0	0.0%	0		12.39s	183	5,384

مقارنة سريعة

تبديل زوج المقارنة

Gemini 3.1 Flash Lite PreviewnonevsGrok 4.20 Betamedium Mercury 2mediumvsQwen3.5-Flashnone gpt-oss-120bmediumمتاح مجانًاvsQwen3.5-Flashnone Gemini 3 Flash PreviewnonevsGrok 4.20 Betamedium Claude Sonnet 4.6nonevsGrok 4.20 Betamedium GPT-5 NanomediumvsQwen3.5-Flashnone GPT-5.3 ChatnonevsGrok 4.20 Betamedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.20 Betamedium Qwen3.5-FlashnonevsGrok 4.20 Multi-Agent Betamedium GPT-5.2 ChatnonevsGrok 4.20 Betamedium MiniMax M2.5mediumvsQwen3.5-Flashnone Nemotron 3 Super 120b A12bmediumمتاح مجانًاvsQwen3.5-Flashnone