| অ্যান্টি-এআই কৌশল | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। কোনো ব্যর্থ উত্তর নেই। প্রতিক্রিয়া সময় (গড়) 4687ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 6680ms প্রতিক্রিয়া সময় (মোট) 14061ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 100.0% MoonshotAI: Kimi K2.5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 4.41 4.41 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 100.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ OpenAI: GPT-5.3-Codex - যুক্তি (medium) ০ Anthropic: Claude Opus 4.6 - যুক্তি (medium) ২ ০ ২ | 6.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #15/19 ২২% Anthropic: Claude Opus 4.6 - যুক্তি (medium) 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.89 Z.ai: GLM 5 - যুক্তি (medium) 9.83 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.83 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 6.00 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 মোট খরচ র্যাঙ্ক: #24/29 ১৮% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00018 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00020 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00024 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00049 OpenAI: GPT-5.3-Codex - যুক্তি (medium) $0.02371 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.05049 $0.00000 $0.05049 |
| ডেটা পার্সিং ও নিষ্কাশন | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। কোনো ব্যর্থ উত্তর নেই। প্রতিক্রিয়া সময় (গড়) 3180ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 3585ms প্রতিক্রিয়া সময় (মোট) 6360ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 100.0% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 0.50 0.50 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি (medium) 5.56 5.56 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 100.0% Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া 16.7% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ OpenAI: GPT-5.3-Codex - যুক্তি (medium) ০ Z.ai: GLM 5 - যুক্তি (medium) ১ ০ ১ | 1.25 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 9.87 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.83 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.83 Z.ai: GLM 5 - যুক্তি (medium) 9.80 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 মোট খরচ র্যাঙ্ক: #23/29 ২১% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) $0.00029 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00029 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00050 OpenAI: gpt-oss-120b - যুক্তি (medium) $0.00052 OpenAI: GPT-5.3-Codex - যুক্তি (medium) $0.02600 Anthropic: Claude Opus 4.6 - যুক্তি (medium) $0.07755 $0.00000 $0.07755 |
| ডোমেইন-নির্দিষ্ট | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। ভুল উত্তর: 2 প্রতিক্রিয়া সময় (গড়) 64314ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 100927ms প্রতিক্রিয়া সময় (মোট) 192942ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #9/29 ৭১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 33.3% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 0.0% 0.0% 100.0% | 4.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #9/29 ৭১% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 7.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 7.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 7.00 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 7.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 4.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 1.00 1.00 10.00 | 7.21 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #15/29 ৫০% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 7.21 Google: Gemini 3 Flash Preview - যুক্তি (low) 4.41 4.41 10.00 | 55.6% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 66.7% Google: Gemini 3 Flash Preview - যুক্তি ছাড়া 66.7% Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া 66.7% Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া 66.7% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 55.6% Z.ai: GLM 5 - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #15/29 ৫০% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ০ Anthropic: Claude Sonnet 4.6 - যুক্তি ছাড়া ০ OpenAI: GPT-5.3-Codex - যুক্তি (medium) ১ Google: Gemini 3 Flash Preview - যুক্তি (low) ২ ০ ২ | 1.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 8.72 OpenAI: gpt-oss-120b - যুক্তি (medium) 8.53 StepFun: Step 3.5 Flash - যুক্তি (medium) 8.44 Z.ai: GLM 5 - যুক্তি (medium) 8.43 Z.ai: GLM 4.7 Flash - যুক্তি (medium) 8.21 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 মোট খরচ র্যাঙ্ক: #27/29 ৭% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00005 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00010 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00010 OpenAI: GPT-5.3-Codex - যুক্তি (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) $0.64205 $0.00000 $0.64205 |
| নির্দেশনা অনুসরণ | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। নির্দেশনা অনুসরণ করা হয়নি: 1 প্রতিক্রিয়া সময় (গড়) 3037ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 3436ms প্রতিক্রিয়া সময় (মোট) 6074ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #15/29 ৫০% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 9.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #14/29 ৫৪% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি ছাড়া 10.00 OpenAI: gpt-oss-120b - যুক্তি (medium) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 9.00 xAI: Grok 4.1 Fast - যুক্তি ছাড়া 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #4/29 ৮৯% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 10.00 OpenAI: GPT-5.2 - যুক্তি (medium) 10.00 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 5.80 5.80 10.00 | 50.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #20/29 ৩২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% OpenAI: GPT-5.2 - যুক্তি (medium) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 50.0% xAI: Grok 4.1 Fast - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #6/29 ৮২% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ OpenAI: GPT-5.3-Codex - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি ছাড়া ১ ০ ১ | 1.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #19/19 ০% Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 Z.ai: GLM 5 - যুক্তি (medium) 9.75 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.67 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.50 OpenAI: gpt-oss-120b - যুক্তি (medium) 9.50 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 মোট খরচ র্যাঙ্ক: #23/29 ২১% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00006 Xiaomi: MiMo-V2-Flash - যুক্তি ছাড়া $0.00008 Qwen: Qwen3 Coder Next - যুক্তি ছাড়া $0.00013 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00014 OpenAI: GPT-5.3-Codex - যুক্তি (medium) $0.01216 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। নির্দেশনা অনুসরণ করা হয়নি: 1 প্রতিক্রিয়া সময় (গড়) 4610ms প্রতিক্রিয়া সময় (সর্বোচ্চ) 7191ms প্রতিক্রিয়া সময় (মোট) 13830ms একটি টেস্ট তখনই সম্পূর্ণ পাস ধরা হবে যখন তার সব রিপিট পাস করবে। র্যাঙ্ক: #8/29 ৭৫% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 66.7% StepFun: Step 3.5 Flash - যুক্তি (medium) 0.0% 0.0% 100.0% | 7.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #9/29 ৭১% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 7.00 Xiaomi: MiMo-V2-Flash - যুক্তি (medium) 1.00 1.00 10.00 | 7.38 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #20/29 ৩২% Google: Gemini 3 Flash Preview - যুক্তি (medium) 10.00 Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 10.00 Google: Gemini 3 Pro Preview - যুক্তি (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 10.00 Google: Gemini 3 Flash Preview - যুক্তি (low) 10.00 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 7.38 MiniMax: MiniMax M2.5 - যুক্তি (medium) 4.79 4.79 10.00 | 77.8% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #8/29 ৭৫% Google: Gemini 3 Flash Preview - যুক্তি (medium) 100.0% Google: Gemini 3.1 Pro Preview - যুক্তি (medium) 100.0% Google: Gemini 3 Pro Preview - যুক্তি (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) 100.0% Google: Gemini 3 Flash Preview - যুক্তি (low) 100.0% OpenAI: GPT-5.3-Codex - যুক্তি (medium) 77.8% OpenAI: GPT-4o-mini - যুক্তি ছাড়া 0.0% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #18/29 ৩৯% Google: Gemini 3 Flash Preview - যুক্তি (medium) ০ Google: Gemini 3.1 Pro Preview - যুক্তি (medium) ০ Google: Gemini 3 Pro Preview - যুক্তি (medium) ০ Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) ০ Google: Gemini 3 Flash Preview - যুক্তি (low) ০ OpenAI: GPT-5.3-Codex - যুক্তি (medium) ১ OpenAI: GPT-5 Nano - যুক্তি (medium) ২ ০ ২ | 6.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #18/19 ৬% Z.ai: GLM 5 - যুক্তি (medium) 9.50 Anthropic: Claude Sonnet 4.6 - যুক্তি (medium) 9.44 Anthropic: Claude Opus 4.6 - যুক্তি (medium) 9.44 MoonshotAI: Kimi K2.5 - যুক্তি (medium) 9.26 StepFun: Step 3.5 Flash - যুক্তি (medium) 9.22 OpenAI: GPT-5.3-Codex - যুক্তি (medium) 6.00 Qwen: Qwen3 Coder Next - যুক্তি (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 মোট খরচ র্যাঙ্ক: #25/29 ১৪% StepFun: Step 3.5 Flash - যুক্তি (medium) $0.00000 Z.ai: GLM 4.7 Flash - যুক্তি ছাড়া $0.00008 OpenAI: GPT-4o-mini - যুক্তি ছাড়া $0.00028 xAI: Grok 4.1 Fast - যুক্তি ছাড়া $0.00053 Qwen: Qwen3 Coder Next - যুক্তি (medium) $0.00058 OpenAI: GPT-5.3-Codex - যুক্তি (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - যুক্তি (medium) $0.05508 $0.00000 $0.05508 |