MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.5

يتقدم Kimi K2.5 (medium) في متوسط النتيجة بـ 7.0 مقابل 6.9. لدى GPT-5.5 تكلفة benchmark أقل عند $0.544 مقابل $0.600. GPT-5.5 أسرع عند 2.36s مقابل 99.00s، مع معدلات نجاح 65.2% مقابل 56.1%.

النموذج الموصى بهGPT-5.5Its score stays close to the best score here (6.9 vs 7.0), while responding about 42.0x faster than Kimi K2.5 (medium).

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-07-24

المقياس	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27	GPT-5.5 GPT-5.5 none الإصدار: 2026-04-24

المقياس	Kimi K2.5 Kimi K2.5 medium الإصدار: 2026-01-27	GPT-5.5 GPT-5.5 none الإصدار: 2026-04-24
النتيجة	7.0	6.9
الترتيب	#81	#91
الموثوقية	10.0	10.0
الاتساق	7.0	8.9
اختبارات صحيحة
معدل النجاح لكل محاولة	65.2%	56.1%
اختبارات غير مستقرة	8	3
إجمالي مرات التشغيل	66	66
التكلفة لكل نتيجة	4.789	4.945
إجمالي التكلفة	$0.600	$0.544
سعر الإدخال	$0.571 / 1M	$5.000 / 1M
سعر الإخراج	$2.850 / 1M	$30.000 / 1M
إجمالي رموز الإدخال	118,448	79,285
رموز الإخراج	62,124	4,915
رموز الاستدلال	165,243	0
زمن الاستجابة (المتوسط)	99.00s	2.36s
زمن الاستجابة (الحد الأقصى)	281.00s	12.24s
زمن الاستجابة (الإجمالي)	1485.04s	51.88s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#81 MoonshotAI: Kimi K2.5

medium

التكلفة: $0.030
الوقت: 58.6s
الرموز: 8,683 tok

#91 GPT-5.5

none

التكلفة: $0.090
الوقت: 54.3s
الرموز: 3,063 tok

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

الفئة:

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	634	2,789	8,880
GPT-5.5	6.9	7.9	66.7%	1		1.31s	606	213	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	6.1	4.6	66.7%	2		217.49s	6,935	5,705	74,693
GPT-5.5	5.5	10.0	33.3%	0		1.35s	7,305	462	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	6.7	9.1	50.0%	0		89.19s	95,416	14,448	11,209
GPT-5.5	6.5	10.0	50.0%	0		8.90s	56,092	3,244	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	7,020	563	7,940
GPT-5.5	10.0	10.0	100.0%	0		1.18s	7,140	222	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	485	20,753	30,564
GPT-5.5	2.9	7.2	11.1%	1		1.31s	723	52	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	480	3,815	4,262
GPT-5.5	10.0	10.0	100.0%	0		3.41s	477	124	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	675	5,371	6,547
GPT-5.5	6.2	5.8	66.7%	1		1.15s	660	81	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	5.3	7.3	44.4%	1		43.23s	659	8,426	12,692
GPT-5.5	7.7	10.0	66.7%	0		1.29s	642	252	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	5,933	242	812
GPT-5.5	10.0	10.0	100.0%	0		3.90s	5,445	247	0

معلومات عامة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإدخال	رموز الإخراج	رموز الاستدلال
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	211	12	7,644
GPT-5.5	3.0	10.0	0.0%	0		5.01s	195	18	0

مقارنة سريعة

تبديل زوج المقارنة

GPT-5.5nonevsStep 3.7 Flashhigh Gemini 3.5 FlashnonevsKimi K2.5medium GPT-5.5nonevsQwen3.6 Flashmedium GPT-5.5nonevsMiMo-V2.5-Promedium Gemini 3.5 FlashminimalvsGPT-5.5none KAT-Coder-Pro V2.5mediumvsGPT-5.5none DeepSeek V4 PrononevsKimi K2.5medium Kimi K2.5mediumvsGPT-5.6 Solnone Seed-2.0-MinimediumvsGPT-5.5none GPT-5.5nonevsQwen3.6 35B A3Bmedium Kimi K2.5mediumvsStep 3.7 Flashhigh Mercury 2mediumvsGPT-5.5none