| اینٹی اے آئی چالیں | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ کوئی ناکام جواب نہیں۔ ردِعمل کا وقت (اوسط) 4687ms ردِعمل کا وقت (زیادہ سے زیادہ) 6680ms ردِعمل کا وقت (کل) 14061ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 0.0% 0.0% 100.0% | 10.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 1.00 1.00 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 Anthropic: Claude Opus 4.6 - استدلال (medium) 4.41 4.41 10.00 | 100.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 100.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 OpenAI: GPT-5.3-Codex - استدلال (medium) 0 Anthropic: Claude Opus 4.6 - استدلال (medium) 2 0 2 | 6.00 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #15/19 22% Anthropic: Claude Opus 4.6 - استدلال (medium) 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.89 Z.ai: GLM 5 - استدلال (medium) 9.83 StepFun: Step 3.5 Flash - استدلال (medium) 9.83 OpenAI: GPT-5.3-Codex - استدلال (medium) 6.00 Qwen: Qwen3 Coder Next - استدلال (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 کل لاگت درجہ: #24/29 18% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 OpenAI: GPT-4o-mini - بغیر استدلال $0.00018 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00020 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00024 xAI: Grok 4.1 Fast - بغیر استدلال $0.00049 OpenAI: GPT-5.3-Codex - استدلال (medium) $0.02371 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.05049 $0.00000 $0.05049 |
| ڈیٹا پارسنگ اور استخراج | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ کوئی ناکام جواب نہیں۔ ردِعمل کا وقت (اوسط) 3180ms ردِعمل کا وقت (زیادہ سے زیادہ) 3585ms ردِعمل کا وقت (کل) 6360ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 100.0% Z.ai: GLM 4.7 Flash - بغیر استدلال 0.0% 0.0% 100.0% | 10.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 0.50 0.50 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 Z.ai: GLM 5 - استدلال (medium) 5.56 5.56 10.00 | 100.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 100.0% Xiaomi: MiMo-V2-Flash - بغیر استدلال 16.7% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 OpenAI: GPT-5.3-Codex - استدلال (medium) 0 Z.ai: GLM 5 - استدلال (medium) 1 0 1 | 1.25 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - استدلال (medium) 9.87 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.83 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.83 Z.ai: GLM 5 - استدلال (medium) 9.80 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 کل لاگت درجہ: #23/29 21% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Xiaomi: MiMo-V2-Flash - استدلال (medium) $0.00029 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00029 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00050 OpenAI: gpt-oss-120b - استدلال (medium) $0.00052 OpenAI: GPT-5.3-Codex - استدلال (medium) $0.02600 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.07755 $0.00000 $0.07755 |
| ڈومین مخصوص | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 2 ردِعمل کا وقت (اوسط) 64314ms ردِعمل کا وقت (زیادہ سے زیادہ) 100927ms ردِعمل کا وقت (کل) 192942ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #9/29 71% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% OpenAI: GPT-5.3-Codex - استدلال (medium) 33.3% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 0.0% 0.0% 100.0% | 4.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #9/29 71% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 7.00 Google: Gemini 3 Flash Preview - بغیر استدلال 7.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 7.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 7.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 4.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 1.00 1.00 10.00 | 7.21 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #15/29 50% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - بغیر استدلال 10.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 7.21 Google: Gemini 3 Flash Preview - استدلال (low) 4.41 4.41 10.00 | 55.6% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% OpenAI: GPT-5.3-Codex - استدلال (medium) 55.6% Z.ai: GLM 5 - بغیر استدلال 0.0% 0.0% 100.0% | 1 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #15/29 50% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Flash Preview - بغیر استدلال 0 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 0 OpenAI: GPT-5.3-Codex - استدلال (medium) 1 Google: Gemini 3 Flash Preview - استدلال (low) 2 0 2 | 1.00 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Xiaomi: MiMo-V2-Flash - استدلال (medium) 8.72 OpenAI: gpt-oss-120b - استدلال (medium) 8.53 StepFun: Step 3.5 Flash - استدلال (medium) 8.44 Z.ai: GLM 5 - استدلال (medium) 8.43 Z.ai: GLM 4.7 Flash - استدلال (medium) 8.21 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 کل لاگت درجہ: #27/29 7% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00005 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00010 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00010 OpenAI: GPT-5.3-Codex - استدلال (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - استدلال (medium) $0.64205 $0.00000 $0.64205 |
| ہدایات کی پیروی | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ ہدایات پر عمل نہیں کیا: 1 ردِعمل کا وقت (اوسط) 3037ms ردِعمل کا وقت (زیادہ سے زیادہ) 3436ms ردِعمل کا وقت (کل) 6074ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #15/29 50% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 9.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #14/29 54% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - بغیر استدلال 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 9.00 xAI: Grok 4.1 Fast - بغیر استدلال 1.00 1.00 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #4/29 89% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 OpenAI: GPT-5.2 - استدلال (medium) 10.00 Xiaomi: MiMo-V2-Flash - استدلال (medium) 5.80 5.80 10.00 | 50.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #20/29 32% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #6/29 82% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 OpenAI: GPT-5.3-Codex - استدلال (medium) 0 Google: Gemini 3 Flash Preview - بغیر استدلال 1 0 1 | 1.00 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - استدلال (medium) 9.75 StepFun: Step 3.5 Flash - استدلال (medium) 9.67 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.50 OpenAI: gpt-oss-120b - استدلال (medium) 9.50 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 کل لاگت درجہ: #23/29 21% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00006 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00013 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00014 OpenAI: GPT-5.3-Codex - استدلال (medium) $0.01216 Google: Gemini 3.1 Pro Preview - استدلال (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ ہدایات پر عمل نہیں کیا: 1 ردِعمل کا وقت (اوسط) 4610ms ردِعمل کا وقت (زیادہ سے زیادہ) 7191ms ردِعمل کا وقت (کل) 13830ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #8/29 75% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 66.7% StepFun: Step 3.5 Flash - استدلال (medium) 0.0% 0.0% 100.0% | 7.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #9/29 71% Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 7.00 Xiaomi: MiMo-V2-Flash - استدلال (medium) 1.00 1.00 10.00 | 7.38 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #20/29 32% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 7.38 MiniMax: MiniMax M2.5 - استدلال (medium) 4.79 4.79 10.00 | 77.8% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #8/29 75% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-5.3-Codex - استدلال (medium) 77.8% OpenAI: GPT-4o-mini - بغیر استدلال 0.0% 0.0% 100.0% | 1 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #18/29 39% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 OpenAI: GPT-5.3-Codex - استدلال (medium) 1 OpenAI: GPT-5 Nano - استدلال (medium) 2 0 2 | 6.00 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #18/19 6% Z.ai: GLM 5 - استدلال (medium) 9.50 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.44 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.44 MoonshotAI: Kimi K2.5 - استدلال (medium) 9.26 StepFun: Step 3.5 Flash - استدلال (medium) 9.22 OpenAI: GPT-5.3-Codex - استدلال (medium) 6.00 Qwen: Qwen3 Coder Next - استدلال (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 کل لاگت درجہ: #25/29 14% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00008 OpenAI: GPT-4o-mini - بغیر استدلال $0.00028 xAI: Grok 4.1 Fast - بغیر استدلال $0.00053 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00058 OpenAI: GPT-5.3-Codex - استدلال (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) $0.05508 $0.00000 $0.05508 |