| حيل مضادة للذكاء الاصطناعي | يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. لا توجد إجابات فاشلة. زمن الاستجابة (المتوسط) 4687ms زمن الاستجابة (الحد الأقصى) 6680ms زمن الاستجابة (الإجمالي) 14061ms يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 100.0% MoonshotAI: Kimi K2.5 - بدون استدلال 0.0% 0.0% 100.0% | 10.00 متوسط الدرجة عبر جميع اختبارات القياس. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - بدون استدلال 1.00 1.00 10.00 | 10.00 تعكس درجة الاتساق ثبات النتائج بين التكرارات (10 = ثابت جدًا، حتى لو كان خطأً بشكل ثابت). الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 10.00 Anthropic: Claude Opus 4.6 - الاستدلال (medium) 4.41 4.41 10.00 | 100.0% معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التكرارات. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 100.0% xAI: Grok 4.1 Fast - بدون استدلال 0.0% 0.0% 100.0% | 0 الاختبارات غير المستقرة لها نتائج مختلطة بين التكرارات (نجاح واحد على الأقل وفشل واحد على الأقل). الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 0 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Pro Preview - الاستدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - الاستدلال (low) 0 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 0 Anthropic: Claude Opus 4.6 - الاستدلال (medium) 2 0 2 | 6.00 يقيس وضوح وكفاءة واتساق الاستدلال بشكل مستقل عن صحة الإجابة النهائية. الترتيب: #15/19 22% Anthropic: Claude Opus 4.6 - الاستدلال (medium) 10.00 OpenAI: gpt-oss-120b - الاستدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 9.89 Z.ai: GLM 5 - الاستدلال (medium) 9.83 StepFun: Step 3.5 Flash - الاستدلال (medium) 9.83 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 6.00 Qwen: Qwen3 Coder Next - الاستدلال (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 إجمالي التكلفة الترتيب: #24/29 18% StepFun: Step 3.5 Flash - الاستدلال (medium) $0.00000 OpenAI: GPT-4o-mini - بدون استدلال $0.00018 Z.ai: GLM 4.7 Flash - بدون استدلال $0.00020 Xiaomi: MiMo-V2-Flash - بدون استدلال $0.00024 xAI: Grok 4.1 Fast - بدون استدلال $0.00049 OpenAI: GPT-5.3-Codex - الاستدلال (medium) $0.02371 Anthropic: Claude Opus 4.6 - الاستدلال (medium) $0.05049 $0.00000 $0.05049 |
| تحليل البيانات واستخراجها | يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. لا توجد إجابات فاشلة. زمن الاستجابة (المتوسط) 3180ms زمن الاستجابة (الحد الأقصى) 3585ms زمن الاستجابة (الإجمالي) 6360ms يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 100.0% Z.ai: GLM 4.7 Flash - بدون استدلال 0.0% 0.0% 100.0% | 10.00 متوسط الدرجة عبر جميع اختبارات القياس. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - بدون استدلال 0.50 0.50 10.00 | 10.00 تعكس درجة الاتساق ثبات النتائج بين التكرارات (10 = ثابت جدًا، حتى لو كان خطأً بشكل ثابت). الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 10.00 Z.ai: GLM 5 - الاستدلال (medium) 5.56 5.56 10.00 | 100.0% معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التكرارات. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 100.0% Xiaomi: MiMo-V2-Flash - بدون استدلال 16.7% 0.0% 100.0% | 0 الاختبارات غير المستقرة لها نتائج مختلطة بين التكرارات (نجاح واحد على الأقل وفشل واحد على الأقل). الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 0 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Pro Preview - الاستدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - الاستدلال (low) 0 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 0 Z.ai: GLM 5 - الاستدلال (medium) 1 0 1 | 1.25 يقيس وضوح وكفاءة واتساق الاستدلال بشكل مستقل عن صحة الإجابة النهائية. الترتيب: #19/19 0% OpenAI: gpt-oss-120b - الاستدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - الاستدلال (medium) 9.87 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 9.83 Anthropic: Claude Opus 4.6 - الاستدلال (medium) 9.83 Z.ai: GLM 5 - الاستدلال (medium) 9.80 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 إجمالي التكلفة الترتيب: #23/29 21% StepFun: Step 3.5 Flash - الاستدلال (medium) $0.00000 Xiaomi: MiMo-V2-Flash - الاستدلال (medium) $0.00029 Xiaomi: MiMo-V2-Flash - بدون استدلال $0.00029 Z.ai: GLM 4.7 Flash - بدون استدلال $0.00050 OpenAI: gpt-oss-120b - الاستدلال (medium) $0.00052 OpenAI: GPT-5.3-Codex - الاستدلال (medium) $0.02600 Anthropic: Claude Opus 4.6 - الاستدلال (medium) $0.07755 $0.00000 $0.07755 |
| خاص بالمجال | يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. إجابة خاطئة: 2 زمن الاستجابة (المتوسط) 64314ms زمن الاستجابة (الحد الأقصى) 100927ms زمن الاستجابة (الإجمالي) 192942ms يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. الترتيب: #9/29 71% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بدون استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بدون استدلال 66.7% Z.ai: GLM 4.7 Flash - بدون استدلال 66.7% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 33.3% Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 0.0% 0.0% 100.0% | 4.00 متوسط الدرجة عبر جميع اختبارات القياس. الترتيب: #9/29 71% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 7.00 Google: Gemini 3 Flash Preview - بدون استدلال 7.00 Anthropic: Claude Sonnet 4.6 - بدون استدلال 7.00 Z.ai: GLM 4.7 Flash - بدون استدلال 7.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 4.00 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 1.00 1.00 10.00 | 7.21 تعكس درجة الاتساق ثبات النتائج بين التكرارات (10 = ثابت جدًا، حتى لو كان خطأً بشكل ثابت). الترتيب: #15/29 50% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - بدون استدلال 10.00 Anthropic: Claude Sonnet 4.6 - بدون استدلال 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 7.21 Google: Gemini 3 Flash Preview - الاستدلال (low) 4.41 4.41 10.00 | 55.6% معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التكرارات. الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بدون استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بدون استدلال 66.7% Z.ai: GLM 4.7 Flash - بدون استدلال 66.7% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 55.6% Z.ai: GLM 5 - بدون استدلال 0.0% 0.0% 100.0% | 1 الاختبارات غير المستقرة لها نتائج مختلطة بين التكرارات (نجاح واحد على الأقل وفشل واحد على الأقل). الترتيب: #15/29 50% Google: Gemini 3 Flash Preview - الاستدلال (medium) 0 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - بدون استدلال 0 Anthropic: Claude Sonnet 4.6 - بدون استدلال 0 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 1 Google: Gemini 3 Flash Preview - الاستدلال (low) 2 0 2 | 1.00 يقيس وضوح وكفاءة واتساق الاستدلال بشكل مستقل عن صحة الإجابة النهائية. الترتيب: #19/19 0% Xiaomi: MiMo-V2-Flash - الاستدلال (medium) 8.72 OpenAI: gpt-oss-120b - الاستدلال (medium) 8.53 StepFun: Step 3.5 Flash - الاستدلال (medium) 8.44 Z.ai: GLM 5 - الاستدلال (medium) 8.43 Z.ai: GLM 4.7 Flash - الاستدلال (medium) 8.21 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 إجمالي التكلفة الترتيب: #27/29 7% StepFun: Step 3.5 Flash - الاستدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بدون استدلال $0.00005 Xiaomi: MiMo-V2-Flash - بدون استدلال $0.00008 Qwen: Qwen3 Coder Next - بدون استدلال $0.00010 Qwen: Qwen3 Coder Next - الاستدلال (medium) $0.00010 OpenAI: GPT-5.3-Codex - الاستدلال (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) $0.64205 $0.00000 $0.64205 |
| اتباع التعليمات | يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. لم يتبع التعليمات: 1 زمن الاستجابة (المتوسط) 3037ms زمن الاستجابة (الحد الأقصى) 3436ms زمن الاستجابة (الإجمالي) 6074ms يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. الترتيب: #15/29 50% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% OpenAI: GPT-5.2 - الاستدلال (medium) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 50.0% xAI: Grok 4.1 Fast - بدون استدلال 0.0% 0.0% 100.0% | 9.00 متوسط الدرجة عبر جميع اختبارات القياس. الترتيب: #14/29 54% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 10.00 Z.ai: GLM 5 - بدون استدلال 10.00 OpenAI: gpt-oss-120b - الاستدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 9.00 xAI: Grok 4.1 Fast - بدون استدلال 1.00 1.00 10.00 | 10.00 تعكس درجة الاتساق ثبات النتائج بين التكرارات (10 = ثابت جدًا، حتى لو كان خطأً بشكل ثابت). الترتيب: #4/29 89% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 10.00 OpenAI: GPT-5.2 - الاستدلال (medium) 10.00 Xiaomi: MiMo-V2-Flash - الاستدلال (medium) 5.80 5.80 10.00 | 50.0% معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التكرارات. الترتيب: #20/29 32% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% OpenAI: GPT-5.2 - الاستدلال (medium) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 50.0% xAI: Grok 4.1 Fast - بدون استدلال 0.0% 0.0% 100.0% | 0 الاختبارات غير المستقرة لها نتائج مختلطة بين التكرارات (نجاح واحد على الأقل وفشل واحد على الأقل). الترتيب: #6/29 82% Google: Gemini 3 Flash Preview - الاستدلال (medium) 0 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Pro Preview - الاستدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - الاستدلال (low) 0 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - بدون استدلال 1 0 1 | 1.00 يقيس وضوح وكفاءة واتساق الاستدلال بشكل مستقل عن صحة الإجابة النهائية. الترتيب: #19/19 0% Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 10.00 Z.ai: GLM 5 - الاستدلال (medium) 9.75 StepFun: Step 3.5 Flash - الاستدلال (medium) 9.67 Anthropic: Claude Opus 4.6 - الاستدلال (medium) 9.50 OpenAI: gpt-oss-120b - الاستدلال (medium) 9.50 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 إجمالي التكلفة الترتيب: #23/29 21% StepFun: Step 3.5 Flash - الاستدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بدون استدلال $0.00006 Xiaomi: MiMo-V2-Flash - بدون استدلال $0.00008 Qwen: Qwen3 Coder Next - بدون استدلال $0.00013 Qwen: Qwen3 Coder Next - الاستدلال (medium) $0.00014 OpenAI: GPT-5.3-Codex - الاستدلال (medium) $0.01216 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. لم يتبع التعليمات: 1 زمن الاستجابة (المتوسط) 4610ms زمن الاستجابة (الحد الأقصى) 7191ms زمن الاستجابة (الإجمالي) 13830ms يُعد الاختبار ناجحًا بالكامل فقط إذا نجحت كل التكرارات الخاصة به. الترتيب: #8/29 75% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 66.7% StepFun: Step 3.5 Flash - الاستدلال (medium) 0.0% 0.0% 100.0% | 7.00 متوسط الدرجة عبر جميع اختبارات القياس. الترتيب: #9/29 71% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 7.00 Xiaomi: MiMo-V2-Flash - الاستدلال (medium) 1.00 1.00 10.00 | 7.38 تعكس درجة الاتساق ثبات النتائج بين التكرارات (10 = ثابت جدًا، حتى لو كان خطأً بشكل ثابت). الترتيب: #20/29 32% Google: Gemini 3 Flash Preview - الاستدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 10.00 Google: Gemini 3 Pro Preview - الاستدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 10.00 Google: Gemini 3 Flash Preview - الاستدلال (low) 10.00 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 7.38 MiniMax: MiniMax M2.5 - الاستدلال (medium) 4.79 4.79 10.00 | 77.8% معدل النجاح لكل محاولة = المحاولات الناجحة / إجمالي المحاولات عبر جميع التكرارات. الترتيب: #8/29 75% Google: Gemini 3 Flash Preview - الاستدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 100.0% Google: Gemini 3 Pro Preview - الاستدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 100.0% Google: Gemini 3 Flash Preview - الاستدلال (low) 100.0% OpenAI: GPT-5.3-Codex - الاستدلال (medium) 77.8% OpenAI: GPT-4o-mini - بدون استدلال 0.0% 0.0% 100.0% | 1 الاختبارات غير المستقرة لها نتائج مختلطة بين التكرارات (نجاح واحد على الأقل وفشل واحد على الأقل). الترتيب: #18/29 39% Google: Gemini 3 Flash Preview - الاستدلال (medium) 0 Google: Gemini 3.1 Pro Preview - الاستدلال (medium) 0 Google: Gemini 3 Pro Preview - الاستدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) 0 Google: Gemini 3 Flash Preview - الاستدلال (low) 0 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 1 OpenAI: GPT-5 Nano - الاستدلال (medium) 2 0 2 | 6.00 يقيس وضوح وكفاءة واتساق الاستدلال بشكل مستقل عن صحة الإجابة النهائية. الترتيب: #18/19 6% Z.ai: GLM 5 - الاستدلال (medium) 9.50 Anthropic: Claude Sonnet 4.6 - الاستدلال (medium) 9.44 Anthropic: Claude Opus 4.6 - الاستدلال (medium) 9.44 MoonshotAI: Kimi K2.5 - الاستدلال (medium) 9.26 StepFun: Step 3.5 Flash - الاستدلال (medium) 9.22 OpenAI: GPT-5.3-Codex - الاستدلال (medium) 6.00 Qwen: Qwen3 Coder Next - الاستدلال (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 إجمالي التكلفة الترتيب: #25/29 14% StepFun: Step 3.5 Flash - الاستدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بدون استدلال $0.00008 OpenAI: GPT-4o-mini - بدون استدلال $0.00028 xAI: Grok 4.1 Fast - بدون استدلال $0.00053 Qwen: Qwen3 Coder Next - الاستدلال (medium) $0.00058 OpenAI: GPT-5.3-Codex - الاستدلال (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - الاستدلال (medium) $0.05508 $0.00000 $0.05508 |