| অ্যান্টি-এআই কৌশল | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 3 প্রতিক্রিয়া সময় (গড়) 11378ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 11378ms প্রতিক্রিয়া সময় (মোট) 11378ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 2.67 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 2.67 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 1.00 1.00 10.00 | 7.86 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #20/29 ৩২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 7.86 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 4.41 4.41 10.00 | 11.1% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #26/29 ১১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 11.1% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া ১ Anthropic: Claude Opus 4.6 - যুক্তি (medium) ২ ০ ২ | - চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Anthropic: Claude Opus 4.6 - যুক্তি (medium) 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.89 Z.ai: GLM 5 - যুক্তি (medium) 9.83 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.83 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.00 4.00 10.00 | 11378ms | $0.00121 মোট খরচ র্যাঙ্ক: #11/29 ৬৪% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00018 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00020 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00024 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00049 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া $0.00121 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.05049 $0.00000 $0.05049 |
| ডেটা পার্সিং ও নিষ্কাশন | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 1 প্রতিক্রিয়া সময় (গড়) 0ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 0ms প্রতিক্রিয়া সময় (মোট) 0ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #25/29 ১৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 50.0% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 5.50 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #23/29 ২১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 5.50 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.50 0.50 10.00 | 5.81 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #26/29 ১১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 5.81 Z.ai: GLM 5 - যুক্তি (medium) 5.56 5.56 10.00 | 83.3% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #23/29 ২১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 83.3% Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া 16.7% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #27/29 ৭% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া ১ Z.ai: GLM 5 - যুক্তি (medium) ১ ০ ১ | - চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 9.87 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.83 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.83 Z.ai: GLM 5 - যুক্তি (medium) 9.80 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.25 1.25 10.00 | 0ms | $0.00455 মোট খরচ র্যাঙ্ক: #16/29 ৪৬% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) $0.00029 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00029 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00050 OpenAI: gpt-oss-120b - যুক্তি (medium) $0.00052 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া $0.00455 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.07755 $0.00000 $0.07755 |
| ডোমেইন-নির্দিষ্ট | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 2 প্রতিক্রিয়া সময় (গড়) 0ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 0ms প্রতিক্রিয়া সময় (মোট) 0ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #16/29 ৪৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 33.3% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 0.0% 0.0% 100.0% | 4.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #16/29 ৪৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 7.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 7.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 7.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 7.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 4.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #10/29 ৬৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 4.41 4.41 10.00 | 33.3% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #21/29 ২৯% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 33.3% Z.ai: GLM 5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #10/29 ৬৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ০ Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া ০ MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ২ ০ ২ | - চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 8.72 OpenAI: gpt-oss-120b - যুক্তি (medium) 8.53 StepFun: Step 3.5 Flash - যুক্তি (medium) 8.44 Z.ai: GLM 5 - যুক্তি (medium) 8.43 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 8.21 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 8.72 | 0ms | $0.00027 মোট খরচ র্যাঙ্ক: #8/29 ৭৫% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00005 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00010 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00010 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া $0.00027 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) $0.64205 $0.00000 $0.64205 |
| নির্দেশনা অনুসরণ | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 1 প্রতিক্রিয়া সময় (গড়) 0ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 0ms প্রতিক্রিয়া সময় (মোট) 0ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 5.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি ছাড়া 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 5.00 xAI: Grok 4.1 Fast - যুক্তি ছাড়া 1.00 1.00 10.00 | 9.99 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #20/29 ৩২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 OpenAI: GPT-5.2 - যুক্তি (medium) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 9.99 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 5.80 5.80 10.00 | 50.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #19/29 ৩৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ১ ০ ১ | - চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি (medium) 9.75 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.67 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.50 OpenAI: gpt-oss-120b - যুক্তি (medium) 9.50 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 10.00 | 0ms | $0.00035 মোট খরচ র্যাঙ্ক: #7/29 ৭৯% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00006 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00013 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00014 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া $0.00035 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 2 নির্দেশনা অনুসরণ করা হয়নি: 1 প্রতিক্রিয়া সময় (গড়) 0ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 0ms প্রতিক্রিয়া সময় (মোট) 0ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #24/29 ১৮% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 0.0% StepFun: Step 3.5 Flash - যুক্তি (medium) 0.0% 0.0% 100.0% | 2.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #23/29 ২১% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 2.00 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 1.00 1.00 10.00 | 9.92 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #14/29 ৫৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 9.92 MiniMax: MiniMax M2.5 - যুক্তি (medium) 4.79 4.79 10.00 | 0.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #26/29 ১১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 0.0% OpenAI: GPT-4o-mini - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #14/29 ৫৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া ০ OpenAI: GPT-5 Nano - যুক্তি (medium) ২ ০ ২ | - চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Z.ai: GLM 5 - যুক্তি (medium) 9.50 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.44 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.44 MoonshotAI: Kimi K2.5 - যুক্তি (medium) 9.26 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.22 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.33 4.33 9.50 | 0ms | $0.00090 মোট খরচ র্যাঙ্ক: #9/29 ৭১% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00008 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00028 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00053 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00058 MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া $0.00090 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) $0.05508 $0.00000 $0.05508 |