| অ্যান্টি-এআই কৌশল | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। কোনো ব্যর্থ উত্তর নেই। প্রতিক্রিয়া সময় (গড়) 3496ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 4305ms প্রতিক্রিয়া সময় (মোট) 10487ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 4.41 4.41 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ Anthropic: Claude Opus 4.6 - যুক্তি (medium) ২ ০ ২ | 6.23 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। নোট: কিছু Gemini মডেলে কেবল আংশিক reasoning টেক্সট পাওয়া যায়, তাই reasoning score কম দেখাতে পারে। র্যাঙ্ক: #14/19 ২৮% Anthropic: Claude Opus 4.6 - যুক্তি (medium) 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.89 Z.ai: GLM 5 - যুক্তি (medium) 9.83 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.83 Google: Gemini 3 Flash Preview - যুক্তি (low) 6.23 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 মোট খরচ র্যাঙ্ক: #16/29 ৪৬% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00018 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00020 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00024 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00049 Google: Gemini 3 Flash Preview - যুক্তি (low) $0.00844 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.05049 $0.00000 $0.05049 |
| ডেটা পার্সিং ও নিষ্কাশন | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। কোনো ব্যর্থ উত্তর নেই। প্রতিক্রিয়া সময় (গড়) 9460ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 14717ms প্রতিক্রিয়া সময় (মোট) 18919ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.50 0.50 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Z.ai: GLM 5 - যুক্তি (medium) 5.56 5.56 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া 16.7% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ Z.ai: GLM 5 - যুক্তি (medium) ১ ০ ১ | 4.73 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। নোট: কিছু Gemini মডেলে কেবল আংশিক reasoning টেক্সট পাওয়া যায়, তাই reasoning score কম দেখাতে পারে। র্যাঙ্ক: #17/19 ১১% OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 9.87 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.83 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.83 Z.ai: GLM 5 - যুক্তি (medium) 9.80 Google: Gemini 3 Flash Preview - যুক্তি (low) 4.73 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 মোট খরচ র্যাঙ্ক: #18/29 ৩৯% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) $0.00029 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00029 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00050 OpenAI: gpt-oss-120b - যুক্তি (medium) $0.00052 Google: Gemini 3 Flash Preview - যুক্তি (low) $0.01354 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.07755 $0.00000 $0.07755 |
| ডোমেইন-নির্দিষ্ট | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 2 প্রতিক্রিয়া সময় (গড়) 8314ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 14399ms প্রতিক্রিয়া সময় (মোট) 24941ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #8/29 ৭৫% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% Google: Gemini 3 Flash Preview - যুক্তি (low) 33.3% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 0.0% 0.0% 100.0% | 4.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #8/29 ৭৫% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 7.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 7.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 7.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 7.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 4.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 1.00 1.00 10.00 | 4.41 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #23/29 ২১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 4.41 4.41 10.00 | 55.5% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #11/29 ৬৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% Google: Gemini 3 Flash Preview - যুক্তি (low) 55.5% Z.ai: GLM 5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 2 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #23/29 ২১% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ০ Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ২ ০ ২ | 1.83 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। নোট: কিছু Gemini মডেলে কেবল আংশিক reasoning টেক্সট পাওয়া যায়, তাই reasoning score কম দেখাতে পারে। র্যাঙ্ক: #18/19 ৬% Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 8.72 OpenAI: gpt-oss-120b - যুক্তি (medium) 8.53 StepFun: Step 3.5 Flash - যুক্তি (medium) 8.44 Z.ai: GLM 5 - যুক্তি (medium) 8.43 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 8.21 Google: Gemini 3 Flash Preview - যুক্তি (low) 1.83 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 মোট খরচ র্যাঙ্ক: #18/29 ৩৯% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00005 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00010 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00010 Google: Gemini 3 Flash Preview - যুক্তি (low) $0.01993 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) $0.64205 $0.00000 $0.64205 |
| নির্দেশনা অনুসরণ | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। নির্দেশনা অনুসরণ করা হয়নি: 1 প্রতিক্রিয়া সময় (গড়) 7016ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 7350ms প্রতিক্রিয়া সময় (মোট) 14031ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #14/29 ৫৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 7.50 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #15/29 ৫০% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি ছাড়া 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 7.50 xAI: Grok 4.1 Fast - যুক্তি ছাড়া 1.00 1.00 10.00 | 9.99 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #17/29 ৪৩% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 OpenAI: GPT-5.2 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 9.99 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 5.80 5.80 10.00 | 50.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #19/29 ৩৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ১ ০ ১ | 5.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। নোট: কিছু Gemini মডেলে কেবল আংশিক reasoning টেক্সট পাওয়া যায়, তাই reasoning score কম দেখাতে পারে। র্যাঙ্ক: #17/19 ১১% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি (medium) 9.75 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.67 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.50 OpenAI: gpt-oss-120b - যুক্তি (medium) 9.50 Google: Gemini 3 Flash Preview - যুক্তি (low) 5.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 মোট খরচ র্যাঙ্ক: #20/29 ৩২% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00006 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00013 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00014 Google: Gemini 3 Flash Preview - যুক্তি (low) $0.00878 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। কোনো ব্যর্থ উত্তর নেই। প্রতিক্রিয়া সময় (গড়) 6440ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 10274ms প্রতিক্রিয়া সময় (মোট) 19319ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% StepFun: Step 3.5 Flash - যুক্তি (medium) 0.0% 0.0% 100.0% | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #4/29 ৮৯% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 MiniMax: MiniMax M2.5 - যুক্তি (medium) 4.79 4.79 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-4o-mini - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #5/29 ৮৬% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ OpenAI: GPT-5 Nano - যুক্তি (medium) ২ ০ ২ | 7.50 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। নোট: কিছু Gemini মডেলে কেবল আংশিক reasoning টেক্সট পাওয়া যায়, তাই reasoning score কম দেখাতে পারে। র্যাঙ্ক: #13/19 ৩৩% Z.ai: GLM 5 - যুক্তি (medium) 9.50 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.44 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.44 MoonshotAI: Kimi K2.5 - যুক্তি (medium) 9.26 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.22 Google: Gemini 3 Flash Preview - যুক্তি (low) 7.50 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 মোট খরচ র্যাঙ্ক: #17/29 ৪৩% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00008 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00028 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00053 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00058 Google: Gemini 3 Flash Preview - যুক্তি (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) $0.05508 $0.00000 $0.05508 |