| اینٹی اے آئی چالیں | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 3 ردِعمل کا وقت (اوسط) 11378ms ردِعمل کا وقت (زیادہ سے زیادہ) 11378ms ردِعمل کا وقت (کل) 11378ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 0.0% 0.0% 100.0% | 2.67 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 2.67 Z.ai: GLM 4.7 Flash - بغیر استدلال 1.00 1.00 10.00 | 7.86 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #20/29 32% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 7.86 Anthropic: Claude Opus 4.6 - استدلال (medium) 4.41 4.41 10.00 | 11.1% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #26/29 11% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 11.1% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 1 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 MoonshotAI: Kimi K2.5 - بغیر استدلال 1 Anthropic: Claude Opus 4.6 - استدلال (medium) 2 0 2 | - حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Anthropic: Claude Opus 4.6 - استدلال (medium) 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.89 Z.ai: GLM 5 - استدلال (medium) 9.83 StepFun: Step 3.5 Flash - استدلال (medium) 9.83 Qwen: Qwen3 Coder Next - استدلال (medium) 4.00 4.00 10.00 | 11378ms | $0.00121 کل لاگت درجہ: #11/29 64% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 OpenAI: GPT-4o-mini - بغیر استدلال $0.00018 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00020 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00024 xAI: Grok 4.1 Fast - بغیر استدلال $0.00049 MoonshotAI: Kimi K2.5 - بغیر استدلال $0.00121 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.05049 $0.00000 $0.05049 |
| ڈیٹا پارسنگ اور استخراج | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 1 ردِعمل کا وقت (اوسط) 0ms ردِعمل کا وقت (زیادہ سے زیادہ) 0ms ردِعمل کا وقت (کل) 0ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #25/29 14% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 50.0% Z.ai: GLM 4.7 Flash - بغیر استدلال 0.0% 0.0% 100.0% | 5.50 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #23/29 21% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 5.50 Z.ai: GLM 4.7 Flash - بغیر استدلال 0.50 0.50 10.00 | 5.81 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #26/29 11% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 5.81 Z.ai: GLM 5 - استدلال (medium) 5.56 5.56 10.00 | 83.3% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #23/29 21% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 83.3% Xiaomi: MiMo-V2-Flash - بغیر استدلال 16.7% 0.0% 100.0% | 1 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #27/29 7% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 MoonshotAI: Kimi K2.5 - بغیر استدلال 1 Z.ai: GLM 5 - استدلال (medium) 1 0 1 | - حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% OpenAI: gpt-oss-120b - استدلال (medium) 10.00 Z.ai: GLM 4.7 Flash - استدلال (medium) 9.87 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.83 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.83 Z.ai: GLM 5 - استدلال (medium) 9.80 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.25 1.25 10.00 | 0ms | $0.00455 کل لاگت درجہ: #16/29 46% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Xiaomi: MiMo-V2-Flash - استدلال (medium) $0.00029 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00029 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00050 OpenAI: gpt-oss-120b - استدلال (medium) $0.00052 MoonshotAI: Kimi K2.5 - بغیر استدلال $0.00455 Anthropic: Claude Opus 4.6 - استدلال (medium) $0.07755 $0.00000 $0.07755 |
| ڈومین مخصوص | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 2 ردِعمل کا وقت (اوسط) 0ms ردِعمل کا وقت (زیادہ سے زیادہ) 0ms ردِعمل کا وقت (کل) 0ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #16/29 46% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% MoonshotAI: Kimi K2.5 - بغیر استدلال 33.3% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 0.0% 0.0% 100.0% | 4.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #16/29 46% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 7.00 Google: Gemini 3 Flash Preview - بغیر استدلال 7.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 7.00 Z.ai: GLM 4.7 Flash - بغیر استدلال 7.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 4.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 1.00 1.00 10.00 | 10.00 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #10/29 68% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - بغیر استدلال 10.00 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 4.41 4.41 10.00 | 33.3% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #21/29 29% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 66.7% Google: Gemini 3 Flash Preview - بغیر استدلال 66.7% Anthropic: Claude Sonnet 4.6 - بغیر استدلال 66.7% Z.ai: GLM 4.7 Flash - بغیر استدلال 66.7% MoonshotAI: Kimi K2.5 - بغیر استدلال 33.3% Z.ai: GLM 5 - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #10/29 68% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Flash Preview - بغیر استدلال 0 Anthropic: Claude Sonnet 4.6 - بغیر استدلال 0 MoonshotAI: Kimi K2.5 - بغیر استدلال 0 Google: Gemini 3 Flash Preview - استدلال (low) 2 0 2 | - حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Xiaomi: MiMo-V2-Flash - استدلال (medium) 8.72 OpenAI: gpt-oss-120b - استدلال (medium) 8.53 StepFun: Step 3.5 Flash - استدلال (medium) 8.44 Z.ai: GLM 5 - استدلال (medium) 8.43 Z.ai: GLM 4.7 Flash - استدلال (medium) 8.21 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 8.72 | 0ms | $0.00027 کل لاگت درجہ: #8/29 75% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00005 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00010 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00010 MoonshotAI: Kimi K2.5 - بغیر استدلال $0.00027 Anthropic: Claude Sonnet 4.6 - استدلال (medium) $0.64205 $0.00000 $0.64205 |
| ہدایات کی پیروی | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 1 ردِعمل کا وقت (اوسط) 0ms ردِعمل کا وقت (زیادہ سے زیادہ) 0ms ردِعمل کا وقت (کل) 0ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 5.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - بغیر استدلال 10.00 OpenAI: gpt-oss-120b - استدلال (medium) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 5.00 xAI: Grok 4.1 Fast - بغیر استدلال 1.00 1.00 10.00 | 9.99 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #20/29 32% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 OpenAI: GPT-5.3-Codex - استدلال (medium) 10.00 OpenAI: GPT-5.2 - استدلال (medium) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 9.99 Xiaomi: MiMo-V2-Flash - استدلال (medium) 5.80 5.80 10.00 | 50.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% OpenAI: GPT-5.2 - استدلال (medium) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 50.0% xAI: Grok 4.1 Fast - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #19/29 36% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 MoonshotAI: Kimi K2.5 - بغیر استدلال 0 Google: Gemini 3 Flash Preview - بغیر استدلال 1 0 1 | - حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 Z.ai: GLM 5 - استدلال (medium) 9.75 StepFun: Step 3.5 Flash - استدلال (medium) 9.67 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.50 OpenAI: gpt-oss-120b - استدلال (medium) 9.50 OpenAI: GPT-5.3-Codex - استدلال (medium) 1.00 1.00 10.00 | 0ms | $0.00035 کل لاگت درجہ: #7/29 79% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00006 Xiaomi: MiMo-V2-Flash - بغیر استدلال $0.00008 Qwen: Qwen3 Coder Next - بغیر استدلال $0.00013 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00014 MoonshotAI: Kimi K2.5 - بغیر استدلال $0.00035 Google: Gemini 3.1 Pro Preview - استدلال (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ غلط جواب: 2 ہدایات پر عمل نہیں کیا: 1 ردِعمل کا وقت (اوسط) 0ms ردِعمل کا وقت (زیادہ سے زیادہ) 0ms ردِعمل کا وقت (کل) 0ms کوئی ٹیسٹ تبھی مکمل کامیاب شمار ہوگا جب اس کے تمام ریپیٹس کامیاب ہوں۔ درجہ: #24/29 18% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 0.0% StepFun: Step 3.5 Flash - استدلال (medium) 0.0% 0.0% 100.0% | 2.00 تمام بینچ مارک ٹیسٹس میں اوسط اسکور۔ درجہ: #23/29 21% Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 2.00 Xiaomi: MiMo-V2-Flash - استدلال (medium) 1.00 1.00 10.00 | 9.92 تسلسل اسکور ریپیٹس کے درمیان استحکام دکھاتا ہے (10 = بہت مستحکم، چاہے مسلسل غلط ہو). درجہ: #14/29 54% Google: Gemini 3 Flash Preview - استدلال (medium) 10.00 Google: Gemini 3.1 Pro Preview - استدلال (medium) 10.00 Google: Gemini 3 Pro Preview - استدلال (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 10.00 Google: Gemini 3 Flash Preview - استدلال (low) 10.00 MoonshotAI: Kimi K2.5 - بغیر استدلال 9.92 MiniMax: MiniMax M2.5 - استدلال (medium) 4.79 4.79 10.00 | 0.0% فی کوشش کامیابی کی شرح = کامیاب کوششیں / تمام ریپیٹس میں کل کوششیں۔ درجہ: #26/29 11% Google: Gemini 3 Flash Preview - استدلال (medium) 100.0% Google: Gemini 3.1 Pro Preview - استدلال (medium) 100.0% Google: Gemini 3 Pro Preview - استدلال (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 100.0% Google: Gemini 3 Flash Preview - استدلال (low) 100.0% MoonshotAI: Kimi K2.5 - بغیر استدلال 0.0% OpenAI: GPT-4o-mini - بغیر استدلال 0.0% 0.0% 100.0% | 0 غیر مستحکم ٹیسٹس میں ریپیٹس کے درمیان ملے جلے نتائج آئے (کم از کم ایک کامیاب اور ایک ناکام). درجہ: #14/29 54% Google: Gemini 3 Flash Preview - استدلال (medium) 0 Google: Gemini 3.1 Pro Preview - استدلال (medium) 0 Google: Gemini 3 Pro Preview - استدلال (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) 0 Google: Gemini 3 Flash Preview - استدلال (low) 0 MoonshotAI: Kimi K2.5 - بغیر استدلال 0 OpenAI: GPT-5 Nano - استدلال (medium) 2 0 2 | - حتمی جواب کی درستی سے آزاد ہو کر استدلال کی وضاحت، کارکردگی اور مطابقت کو ماپتا ہے۔ درجہ: #19/19 0% Z.ai: GLM 5 - استدلال (medium) 9.50 Anthropic: Claude Sonnet 4.6 - استدلال (medium) 9.44 Anthropic: Claude Opus 4.6 - استدلال (medium) 9.44 MoonshotAI: Kimi K2.5 - استدلال (medium) 9.26 StepFun: Step 3.5 Flash - استدلال (medium) 9.22 Qwen: Qwen3 Coder Next - استدلال (medium) 4.33 4.33 9.50 | 0ms | $0.00090 کل لاگت درجہ: #9/29 71% StepFun: Step 3.5 Flash - استدلال (medium) $0.00000 Z.ai: GLM 4.7 Flash - بغیر استدلال $0.00008 OpenAI: GPT-4o-mini - بغیر استدلال $0.00028 xAI: Grok 4.1 Fast - بغیر استدلال $0.00053 Qwen: Qwen3 Coder Next - استدلال (medium) $0.00058 MoonshotAI: Kimi K2.5 - بغیر استدلال $0.00090 Qwen: Qwen3.5 Plus 2026-02-15 - استدلال (medium) $0.05508 $0.00000 $0.05508 |