قارن الرسوم البيانية المنهجية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs xAI: Grok 4.1 Fast

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-06

المقياس	Inception: Mercury 2 none الإصدار: 2026-02-24	xAI: Grok 4.1 Fast medium الإصدار: 2025-11-19
متوسط الدرجة	3.4	6.4
الترتيب	#50	#28
اختبارات صحيحة
الاتساق	8.9	7.8
التكلفة لكل نتيجة	0.147	0.541
إجمالي التكلفة	$0.006	$0.049
معدل النجاح لكل محاولة	33.3%	71.1%
اختبارات غير مستقرة	2	4
common.totalRuns	45 (15 x 3)	45 (15 x 3)
رموز الإخراج	1,144	1,056
رموز الاستدلال	0	80,419
زمن الاستجابة (المتوسط)	594ms	27.61s
زمن الاستجابة (الحد الأقصى)	1.27s	121.79s
زمن الاستجابة (الإجمالي)	8.91s	220.87s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	10.0	10.0	0.0%	0		466ms	274	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		5.65s	102	4,021

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	10.0	10.0	0.0%	0		606ms	131	0
xAI: Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	5.5	5.9	83.3%	1		667ms	180	0
xAI: Grok 4.1 Fast	9.9	10.0	100.0%	0		6.63s	180	5,409

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	4.0	7.2	44.4%	1		534ms	46	0
xAI: Grok 4.1 Fast	4.0	4.4	66.7%	2		121.79s	11	37,657

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	5.5	10.0	50.0%	0		551ms	82	0
xAI: Grok 4.1 Fast	5.5	10.0	50.0%	0		5.30s	55	3,489

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	10.0	10.0	0.0%	0		533ms	234	0
xAI: Grok 4.1 Fast	4.0	7.2	44.4%	1		8.08s	187	6,086

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	10.0	10.0	100.0%	0		1.27s	197	0
xAI: Grok 4.1 Fast	10.0	1.6	33.3%	1		27.71s	260	11,485

مقارنة سريعة

تبديل زوج المقارنة

Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium Claude Sonnet 4.6nonevsGrok 4.1 Fastmedium Gemini 3 Flash PreviewnonevsGrok 4.1 Fastmedium Grok 4.1 FastmediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGrok 4.1 Fastmedium GPT-5.3 ChatnonevsGrok 4.1 Fastmedium Gemini 3.1 Flash Lite PreviewlowvsGrok 4.1 Fastmedium Gemini 2.5 FlashnonevsGrok 4.1 Fastmedium DeepSeek V3.2nonevsGrok 4.1 Fastmedium GPT-5.2 ChatnonevsGrok 4.1 Fastmedium