قارن الرسوم البيانية

اللغة:

❤️ Made by XCS

AI BENCHY Compare

Inception: Mercury 2 vs OpenAI: GPT-5 Mini

قارن:

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-03-05

المقياس	Inception: Mercury 2 none الإصدار: 2026-02-24	OpenAI: GPT-5 Mini medium الإصدار: 2025-08-07
الترتيب	#50	#31
متوسط الدرجة	34	61
الاتساق	89	89
التكلفة لكل نتيجة	0.147	1.401
إجمالي التكلفة	$0.006	$0.113
زمن الاستجابة (المتوسط)	594ms	25.92s
زمن الاستجابة (الحد الأقصى)	1.27s	88.15s
زمن الاستجابة (الإجمالي)	8.91s	388.79s
اختبارات صحيحة
معدل النجاح لكل محاولة	33.3%	62.2%
اختبارات غير مستقرة	2	2
رموز الإخراج	1,144	5,477
رموز الاستدلال	0	46,912

أفضل النماذج حسب الدرجة

زمن الاستجابة (المتوسط)

الدرجة مقابل التكلفة الإجمالية

متوسط الدرجة vs زمن الاستجابة (المتوسط)

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		466ms	274	0
OpenAI: GPT-5 Mini	70	96	66.7%	0		16.45s	1,645	5,824

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		606ms	131	0
OpenAI: GPT-5 Mini	100	100	100.0%	0		88.15s	754	11,520

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	59	83.3%	1		667ms	180	0
OpenAI: GPT-5 Mini	99	100	100.0%	0		12.58s	453	3,200

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	40	72	44.4%	1		534ms	46	0
OpenAI: GPT-5 Mini	100	72	22.2%	1		44.63s	293	14,016

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	55	100	50.0%	0		551ms	82	0
OpenAI: GPT-5 Mini	75	66	83.3%	1		15.66s	318	4,992

Puzzle Solving	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	0.0%	0		533ms	234	0
OpenAI: GPT-5 Mini	43	98	33.3%	0		14.09s	1,527	5,760

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Inception: Mercury 2	100	100	100.0%	0		1.27s	197	0
OpenAI: GPT-5 Mini	100	100	100.0%	0		18.64s	487	1,600

مقارنة سريعة

تبديل زوج المقارنة

Mercury 2nonevsQwen3 Coder Nextmedium Mercury 2nonevsGLM 4.7 Flashmedium GPT-5 MinimediumvsGLM 5none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsGPT-5 Minimedium Gemini 2.5 FlashnonevsGPT-5 Minimedium DeepSeek V3.2nonevsGPT-5 Minimedium Gemini 3 Flash PreviewnonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.5-122B-A10Bnone GPT-5 MinimediumvsQwen3.5-Flashnone GPT-5 MinimediumvsQwen3.5-27Bnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5 Minimedium