AI BENCHY Compare

Anthropic: Claude Opus 4.6 vs Qwen: Qwen3.5 Plus 2026-02-15

تم إنشاء نتائج المعايير من مجموعات اختبارات AI BENCHY في: 2026-05-01

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none الإصدار: 2026-02-15

المقياس	Claude Opus 4.6 Claude Opus 4.6 medium الإصدار: 2026-02-05	Qwen3.5 Plus 2026-02-15 Qwen3.5 Plus 2026-02-15 none الإصدار: 2026-02-15
النتيجة	7.6	6.8
الترتيب	#50	#65
الموثوقية	غير متاح	غير متاح
الاتساق	9.1	9.3
اختبارات صحيحة
معدل النجاح لكل محاولة	70.4%	53.7%
اختبارات غير مستقرة	2	2
إجمالي مرات التشغيل	54	54
التكلفة لكل نتيجة	12.047	0.182
إجمالي التكلفة	$1.446	$0.017
??? ???????	$5.000 / 1M	$0.260 / 1M
??? ???????	$25.000 / 1M	$1.560 / 1M
رموز الإخراج	29,829	2,461
رموز الاستدلال	18,938	0
زمن الاستجابة (المتوسط)	21.08s	2.60s
زمن الاستجابة (الحد الأقصى)	83.40s	6.65s
زمن الاستجابة (الإجمالي)	231.84s	31.23s

أفضل النماذج حسب الدرجة

الدرجة مقابل التكلفة الإجمالية

زمن الاستجابة (المتوسط)

النتيجة vs زمن الاستجابة (المتوسط)

إجمالي رموز الإخراج

النتيجة vs إجمالي رموز الإخراج

تفصيل الفئات

حيل مضادة للذكاء الاصطناعي	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	6.4	5.8	66.7%	2		7.45s	986	1,071
Qwen3.5 Plus 2026-02-15	4.8	10.0	25.0%	0		1.91s	517	0

البرمجة	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		23.11s	3,486	1,504
Qwen3.5 Plus 2026-02-15	6.3	3.7	33.3%	1		3.63s	443	0

مجمّع	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Qwen3.5 Plus 2026-02-15	3.0	10.0	0.0%	0		6.65s	314	0

تحليل البيانات واستخراجها	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		7.37s	691	757
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.89s	243	0

خاص بالمجال	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	3.0	10.0	0.0%	0		83.40s	14,642	8,687
Qwen3.5 Plus 2026-02-15	5.3	10.0	33.3%	0		1.17s	17	0

الذكاء العام	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Qwen3.5 Plus 2026-02-15	4.4	3.0	33.3%	1		2.26s	117	0

اتباع التعليمات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		1.67s	72	0

حل الألغاز	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	7.7	10.0	66.7%	0		4.60s	531	637
Qwen3.5 Plus 2026-02-15	7.7	10.0	66.7%	0		2.82s	516	0

استدعاء الأدوات	النتيجة	الاتساق	معدل النجاح لكل محاولة	اختبارات غير مستقرة	اختبارات صحيحة	زمن الاستجابة (المتوسط)	رموز الإخراج	رموز الاستدلال
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Qwen3.5 Plus 2026-02-15	10.0	10.0	100.0%	0		3.33s	222	0

مقارنة سريعة

تبديل زوج المقارنة

Claude Opus 4.6mediumvsQwen3.6 Max Previewnone Qwen3.5 Plus 2026-02-15nonevsGrok 4.1 Fastmedium Nemotron 3 Supermediumمتاح مجانًاvsQwen3.5 Plus 2026-02-15none Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Claude Opus 4.6mediumvsDeepSeek V4 Flashhigh DeepSeek V4 ProhighvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsGPT-5.3 Chatnone Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Mercury 2mediumvsQwen3.5 Plus 2026-02-15none Claude Opus 4.6mediumvsGPT-5.2 Chatnone