AI BENCHY Compare

Qwen3.6 Plus Preview vs Grok 4.20 Multi Agent Beta

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-01

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium الإصدار: 2026-03-12

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Multi Agent Beta Grok 4.20 Multi Agent Beta medium الإصدار: 2026-03-12
النتيجة	8.5	6.6
الترتيب	#15	#71
الموثوقية	غير متاح	غير متاح
الاتساق	10.0	7.4
اختبارات صحيحة
معدل النجاح لكل محاولة	76.5%	63.0%
اختبارات غير مستقرة	0	6
إجمالي مرات التشغيل	49	52
التكلفة لكل نتيجة	0.000	63.414
إجمالي التكلفة	$0.000	$5.074
??? ???????	$0.000 / 1M	$0.000 / 1M
??? ???????	$0.000 / 1M	$0.000 / 1M
رموز الإخراج	1,756	299,034
رموز الاستدلال	77,213	309,670
زمن الاستجابة (المتوسط)	13.94s	9.80s
زمن الاستجابة (الحد الأقصى)	43.55s	35.28s
زمن الاستجابة (الإجمالي)	237.01s	156.75s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		9.90s	207	7,557
Grok 4.20 Multi Agent Beta	6.9	5.8	75.0%	2		3.46s	33,706	33,077

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		34.95s	452	13,073
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	270	10,706
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		5.54s	25,306	25,051

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	49	26,895
Grok 4.20 Multi Agent Beta	2.9	7.2	11.1%	1		24.67s	164,609	163,647

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	5.1	10.0	0.0%	0		27.05s	111	5,232
Grok 4.20 Multi Agent Beta	5.8	2.8	66.7%	1		6.40s	15,848	15,746

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		7.54s	102	5,552
Grok 4.20 Multi Agent Beta	9.8	10.0	100.0%	0		4.63s	25,457	25,322

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		6.11s	298	6,868
Grok 4.20 Multi Agent Beta	7.2	5.1	77.8%	2		5.01s	34,022	33,686

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	267	1,330
Grok 4.20 Multi Agent Beta	3.0	10.0	0.0%	0		0ms	0	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	-	-	-	-	-	-	-	-
Grok 4.20 Multi Agent Beta	10.0	10.0	100.0%	0		27.11s	86	13,141

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewhighمتاح مجانًا Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewlowمتاح مجانًا Gemini 3 Flash PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.2 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.5lowvsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.3 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا DeepSeek V4 FlashhighvsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Sonnet 4.6nonevsQwen3.6 Plus Previewmediumمتاح مجانًا