| اینٹی اے آئی چالیں | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ کوئی ناکام جواب نہیں۔ ردِعمل کا وقت (اوسط) 3496ms ردِعمل کا وقت (زیادہ سے زیادہ) 4305ms ردِعمل کا وقت (کل) 10487ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 0.0% 0.0% 100.0% | 10.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 1.00 1.00 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Anthropic: Claude Opus 4.6 - استدلال (medium) 4.41 4.41 10.00 | 100.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 Anthropic: Claude Opus 4.6 - استدلال (medium) 2 0 2 | 6.23 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ نوٹ: کچھ Gemini ماڈلز میں صرف جزوی reasoning متن دستیاب ہوتا ہے، اس لیے reasoning اسکور کم دکھایا جا سکتا ہے۔ درجہ: #14/19 28% Anthropic: Claude Opus 4.6 - استدلال (medium) 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.89 Z.ai: GLM 5 - استدلال (medium) 9.83 StepFun: Step 3.5 Flash - استدلال (medium) 9.83 Google: Gemini 3 Flash Preview - استدلال (low) 6.23 Qwen: Qwen3 Coder Next - استدلال (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 کل لاگت درجہ: #16/29 46% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 OpenAI: GPT-4o-mini - بغیر استدلال $0.00018 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00020 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00024 xAI: Grok 4.1 Fast - بغیر استدلال $0.00049 Google: Gemini 3 Flash Preview - استدلال (low) $0.00844 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.05049 $0.00000 $0.05049 |
| ڈیٹا پارسنگ اور استخراج | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ کوئی ناکام جواب نہیں۔ ردِعمل کا وقت (اوسط) 9460ms ردِعمل کا وقت (زیادہ سے زیادہ) 14717ms ردِعمل کا وقت (کل) 18919ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% Z.ai: GLM 4.7 Flash - بغیر استدلال 0.0% 0.0% 100.0% | 10.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 0.50 0.50 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Z.ai: GLM 5 - استدلال (medium) 5.56 5.56 10.00 | 100.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% Xiaomi: MiMo-V2-Flash - بغیر استدلال 16.7% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 Z.ai: GLM 5 - استدلال (medium) 1 0 1 | 4.73 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ نوٹ: کچھ Gemini ماڈلز میں صرف جزوی reasoning متن دستیاب ہوتا ہے، اس لیے reasoning اسکور کم دکھایا جا سکتا ہے۔ درجہ: #17/19 11% OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - استدلال (medium) 9.87 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.83 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.83 Z.ai: GLM 5 - استدلال (medium) 9.80 Google: Gemini 3 Flash Preview - استدلال (low) 4.73 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 کل لاگت درجہ: #18/29 39% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Xiaomi: MiMo-V2-Flash - استدلال (medium) $0.00029 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00029 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00050 OpenAI: gpt-oss-120b - استدلال (medium) $0.00052 Google: Gemini 3 Flash Preview - استدلال (low) $0.01354 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.07755 $0.00000 $0.07755 |
| ڈومین مخصوص | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 2 ردِعمل کا وقت (اوسط) 8314ms ردِعمل کا وقت (زیادہ سے زیادہ) 14399ms ردِعمل کا وقت (کل) 24941ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #8/29 75% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% Google: Gemini 3 Flash Preview - استدلال (low) 33.3% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 0.0% 0.0% 100.0% | 4.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #8/29 75% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 7.00 Google: Gemini 3 Flash Preview - بغیر استدلال 7.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 7.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 7.00 Google: Gemini 3 Flash Preview - استدلال (low) 4.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 1.00 1.00 10.00 | 4.41 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #23/29 21% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - بغیر استدلال 10.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 4.41 4.41 10.00 | 55.5% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #11/29 64% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% Google: Gemini 3 Flash Preview - استدلال (low) 55.5% Z.ai: GLM 5 - بغیر استدلال 0.0% 0.0% 100.0% | 2 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #23/29 21% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Flash Preview - بغیر استدلال 0 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 0 Google: Gemini 3 Flash Preview - استدلال (low) 2 0 2 | 1.83 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ نوٹ: کچھ Gemini ماڈلز میں صرف جزوی reasoning متن دستیاب ہوتا ہے، اس لیے reasoning اسکور کم دکھایا جا سکتا ہے۔ درجہ: #18/19 6% Xiaomi: MiMo-V2-Flash - استدلال (medium) 8.72 OpenAI: gpt-oss-120b - استدلال (medium) 8.53 StepFun: Step 3.5 Flash - استدلال (medium) 8.44 Z.ai: GLM 5 - استدلال (medium) 8.43 Z.ai: GLM 4.7 Flash - استدلال (medium) 8.21 Google: Gemini 3 Flash Preview - استدلال (low) 1.83 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 کل لاگت درجہ: #18/29 39% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00005 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00010 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00010 Google: Gemini 3 Flash Preview - استدلال (low) $0.01993 Anthropic: Claude Sonnet 4.6 - استدلال (medium) $0.64205 $0.00000 $0.64205 |
| ہدایات کی پیروی | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ ہدایات پر عمل نہیں کیا: 1 ردِعمل کا وقت (اوسط) 7016ms ردِعمل کا وقت (زیادہ سے زیادہ) 7350ms ردِعمل کا وقت (کل) 14031ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #14/29 54% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 7.50 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #15/29 50% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - بغیر استدلال 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 7.50 xAI: Grok 4.1 Fast - بغیر استدلال 1.00 1.00 10.00 | 9.99 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #17/29 43% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 OpenAI: GPT-5.2 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 9.99 Xiaomi: MiMo-V2-Flash - استدلال (medium) 5.80 5.80 10.00 | 50.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #19/29 36% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 Google: Gemini 3 Flash Preview - بغیر استدلال 1 0 1 | 5.00 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ نوٹ: کچھ Gemini ماڈلز میں صرف جزوی reasoning متن دستیاب ہوتا ہے، اس لیے reasoning اسکور کم دکھایا جا سکتا ہے۔ درجہ: #17/19 11% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - استدلال (medium) 9.75 StepFun: Step 3.5 Flash - استدلال (medium) 9.67 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.50 OpenAI: gpt-oss-120b - استدلال (medium) 9.50 Google: Gemini 3 Flash Preview - استدلال (low) 5.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 کل لاگت درجہ: #20/29 32% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00006 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00013 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00014 Google: Gemini 3 Flash Preview - استدلال (low) $0.00878 Google: Gemini 3.1 Pro Preview - استدلال (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ کوئی ناکام جواب نہیں۔ ردِعمل کا وقت (اوسط) 6440ms ردِعمل کا وقت (زیادہ سے زیادہ) 10274ms ردِعمل کا وقت (کل) 19319ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% StepFun: Step 3.5 Flash - استدلال (medium) 0.0% 0.0% 100.0% | 10.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #4/29 89% Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Xiaomi: MiMo-V2-Flash - استدلال (medium) 1.00 1.00 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MiniMax: MiniMax M2.5 - استدلال (medium) 4.79 4.79 10.00 | 100.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% OpenAI: GPT-4o-mini - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #5/29 86% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 OpenAI: GPT-5 Nano - استدلال (medium) 2 0 2 | 7.50 حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ نوٹ: کچھ Gemini ماڈلز میں صرف جزوی reasoning متن دستیاب ہوتا ہے، اس لیے reasoning اسکور کم دکھایا جا سکتا ہے۔ درجہ: #13/19 33% Z.ai: GLM 5 - استدلال (medium) 9.50 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.44 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.44 MoonshotAI: Kimi K2.5 - استدلال (medium) 9.26 StepFun: Step 3.5 Flash - استدلال (medium) 9.22 Google: Gemini 3 Flash Preview - استدلال (low) 7.50 Qwen: Qwen3 Coder Next - استدلال (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 کل لاگت درجہ: #17/29 43% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00008 OpenAI: GPT-4o-mini - بغیر استدلال $0.00028 xAI: Grok 4.1 Fast - بغیر استدلال $0.00053 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00058 Google: Gemini 3 Flash Preview - استدلال (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) $0.05508 $0.00000 $0.05508 |