AI BENCHY Compare

Qwen3.6 Plus Preview vs Grok 4.20 Beta

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-29

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta none الإصدار: 2026-03-12

المقياس	Qwen3.6 Plus Preview Qwen3.6 Plus Preview medium الإصدار: 2026-04-20 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta none الإصدار: 2026-03-12
النتيجة	8.5	5.3
الترتيب	#14	#104
الموثوقية	غير متاح	غير متاح
الاتساق	10.0	9.2
اختبارات صحيحة
معدل النجاح لكل محاولة	76.5%	29.6%
اختبارات غير مستقرة	0	2
إجمالي مرات التشغيل	49	52
التكلفة لكل نتيجة	0.000	2.255
إجمالي التكلفة	$0.000	$0.091
??? ???????	$0.000 / 1M	$0.000 / 1M
??? ???????	$0.000 / 1M	$0.000 / 1M
رموز الإخراج	1,756	1,591
رموز الاستدلال	77,213	0
زمن الاستجابة (المتوسط)	13.94s	1.19s
زمن الاستجابة (الحد الأقصى)	43.55s	6.48s
زمن الاستجابة (الإجمالي)	237.01s	21.37s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		9.90s	207	7,557
Grok 4.20 Beta	4.0	8.4	16.7%	1		597ms	251	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		34.95s	452	13,073
Grok 4.20 Beta	3.0	10.0	0.0%	0		6.48s	282	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		14.95s	270	10,706
Grok 4.20 Beta	10.0	10.0	100.0%	0		601ms	197	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	3.0	10.0	0.0%	0		22.08s	49	26,895
Grok 4.20 Beta	3.0	10.0	0.0%	0		611ms	160	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	5.1	10.0	0.0%	0		27.05s	111	5,232
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		7.54s	102	5,552
Grok 4.20 Beta	4.8	10.0	0.0%	0		687ms	60	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		6.11s	298	6,868
Grok 4.20 Beta	5.9	7.2	55.6%	1		541ms	291	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	10.0	10.0	100.0%	0		5.87s	267	1,330
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Qwen3.6 Plus Preview	-	-	-	-	-	-	-	-
Grok 4.20 Beta	5.5	10.0	0.0%	0		1.14s	74	0

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewhighمتاح مجانًا Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewlowمتاح مجانًا Gemini 3 Flash PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3 Flash PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewlowvsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.2 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.5lowvsQwen3.6 Plus Previewmediumمتاح مجانًا DeepSeek V4 FlashhighvsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Opus 4.7nonevsQwen3.6 Plus Previewmediumمتاح مجانًا GPT-5.3 ChatnonevsQwen3.6 Plus Previewmediumمتاح مجانًا Claude Sonnet 4.6nonevsQwen3.6 Plus Previewmediumمتاح مجانًا