AI BENCHY Compare

Qwen3.6 Plus Preview vs Grok 4.20 Beta

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-01

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12
النتيجة	8.5	8.2
الترتيب	#15	#22
الموثوقية	غير متاح	غير متاح
الاتساق	10.0	9.1
اختبارات صحيحة
معدل النجاح لكل محاولة	76.5%	79.6%
اختبارات غير مستقرة	0	2
إجمالي مرات التشغيل	49	52
التكلفة لكل نتيجة	0.000	4.864
إجمالي التكلفة	$0.000	$0.633
??? ???????	$0.000 / 1M	$0.000 / 1M
??? ???????	$0.000 / 1M	$0.000 / 1M
رموز الإخراج	1,756	1,568
رموز الاستدلال	77,213	91,909
زمن الاستجابة (المتوسط)	13.94s	9.81s
زمن الاستجابة (الحد الأقصى)	43.55s	31.36s
زمن الاستجابة (الإجمالي)	237.01s	176.62s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		9.90s	207	7,557
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		34.95s	452	13,073
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	270	10,706
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	49	26,895
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	5.1	10.0	0.0%	0		27.05s	111	5,232
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		7.54s	102	5,552
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.97s	57	7,107

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		6.11s	298	6,868
Grok 4.20 Beta	8.2	7.2	88.9%	1		3.85s	249	6,660

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	267	1,330
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	-	-	-	-	-	-	-	-
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewhighمتاح مجانًا Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewlowمتاح مجانًا Gemini 3 Flash PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.2 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.5lowvsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.3 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا DeepSeek V4 FlashhighvsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Sonnet 4.6nonevsQwen3.6 Plus Previewmediumمتاح مجانًا