AI BENCHY Compare

HY3 Preview vs Grok 4.20 Beta

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-04-26

المقياس	HY3 Preview HY3 Preview high الإصدار: 2026-04-22 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12

المقياس	HY3 Preview HY3 Preview high الإصدار: 2026-04-22 متاح مجانًا	Grok 4.20 Beta Grok 4.20 Beta medium الإصدار: 2026-03-12
النتيجة	8.5	8.0
الترتيب	#11	#31
الموثوقية	غير متاح	غير متاح
الاتساق	8.8	9.1
اختبارات صحيحة
معدل النجاح لكل محاولة	81.5%	74.1%
اختبارات غير مستقرة	3	2
إجمالي مرات التشغيل	50	52
التكلفة لكل نتيجة	0.000	5.269
إجمالي التكلفة	$0.000	$0.633
??? ???????	$0.000 / 1M	$0.000 / 1M
??? ???????	$0.000 / 1M	$0.000 / 1M
رموز الإخراج	238,920	1,568
رموز الاستدلال	0	91,909
زمن الاستجابة (المتوسط)	55.19s	9.81s
زمن الاستجابة (الحد الأقصى)	149.94s	31.36s
زمن الاستجابة (الإجمالي)	938.23s	176.62s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	10.0	10.0	100.0%	0		32.69s	26,550	0
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	10.0	10.0	100.0%	0		99.76s	38,167	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	10.0	10.0	100.0%	0		113.09s	31,319	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	6.5	10.0	50.0%	0		12.11s	4,323	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	5.3	7.2	44.4%	1		109.04s	87,559	0
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	10.0	10.0	100.0%	0		24.31s	5,490	0
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	8.5	6.8	83.3%	1		34.02s	13,331	0
Grok 4.20 Beta	8.3	10.0	50.0%	0		4.97s	57	7,107

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	9.0	7.9	88.9%	1		28.07s	21,811	0
Grok 4.20 Beta	8.2	7.2	88.9%	1		3.85s	249	6,660

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
HY3 Preview	10.0	10.0	100.0%	0		78.83s	10,370	0
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5 Plus 2026-02-15mediumvsHY3 Previewhighمتاح مجانًا Qwen3.6 Plus Previewmediumمتاح مجانًاvsHY3 Previewhighمتاح مجانًا Qwen3.5-27BmediumvsHY3 Previewhighمتاح مجانًا GPT-5.3-CodexmediumvsHY3 Previewhighمتاح مجانًا Gemini 3 PRO PreviewmediumvsHY3 Previewhighمتاح مجانًا Seed-2.0-LitemediumvsHY3 Previewhighمتاح مجانًا HY3 Previewhighمتاح مجانًاvsGLM 5medium Gemma 4 31Bmediumمتاح مجانًاvsHY3 Previewhighمتاح مجانًا Gemini 2.5 FlashmediumvsHY3 Previewhighمتاح مجانًا GPT-5.4mediumvsHY3 Previewhighمتاح مجانًا Gemini 3.1 Flash Lite PreviewmediumvsHY3 Previewhighمتاح مجانًا Gemini 3 Flash PreviewlowvsHY3 Previewhighمتاح مجانًا