| Anti-AI Tricks | 2/2 | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #10/27 ৬৫% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 OpenAI: gpt-oss-120b 10.00 Anthropic: Claude Sonnet 4.6 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #12/27 ৫৮% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 OpenAI: gpt-oss-120b 10.00 Anthropic: Claude Opus 4.6 1.62 1.62 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #10/27 ৬৫% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% OpenAI: gpt-oss-120b 100.0% Anthropic: Claude Sonnet 4.6 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #12/27 ৫৮% Google: Gemini 3 Flash Preview ০ Google: Gemini 3.1 Pro Preview ০ Google: Gemini 3 Pro Preview ০ Qwen: Qwen3.5 Plus 2026-02-15 ০ OpenAI: GPT-5.2 ০ OpenAI: gpt-oss-120b ০ Anthropic: Claude Opus 4.6 ২ ০ ২ | 10.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #1/17 ১০০% OpenAI: gpt-oss-120b 10.00 Anthropic: Claude Opus 4.6 10.00 StepFun: Step 3.5 Flash 10.00 Anthropic: Claude Sonnet 4.6 9.83 MoonshotAI: Kimi K2.5 9.77 Qwen: Qwen3 Coder Next 1.00 1.00 10.00 | $0.00029 মোট খরচ র্যাঙ্ক: #12/27 ৫৮% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00003 Xiaomi: MiMo-V2-Flash $0.00004 Qwen: Qwen3 Coder Next $0.00005 Qwen: Qwen3 Coder Next $0.00005 OpenAI: gpt-oss-120b $0.00029 Anthropic: Claude Opus 4.6 $0.03036 $0.00000 $0.03036 |
| Data parsing and extraction | 1/2 | 5.50 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #18/27 ৩৫% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 OpenAI: gpt-oss-120b 5.50 Z.ai: GLM 4.7 Flash 0.50 0.50 10.00 | 5.81 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #22/27 ১৯% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 OpenAI: gpt-oss-120b 5.81 Z.ai: GLM 5 5.56 5.56 10.00 | 83.3% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #19/27 ৩১% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% OpenAI: gpt-oss-120b 83.3% Xiaomi: MiMo-V2-Flash 16.7% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #23/27 ১৫% Google: Gemini 3 Flash Preview ০ Google: Gemini 3.1 Pro Preview ০ Google: Gemini 3 Pro Preview ০ Qwen: Qwen3.5 Plus 2026-02-15 ০ OpenAI: GPT-5.2 ০ OpenAI: gpt-oss-120b ১ Z.ai: GLM 5 ১ ০ ১ | 10.00 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #1/17 ১০০% OpenAI: gpt-oss-120b 10.00 Z.ai: GLM 4.7 Flash 9.87 Anthropic: Claude Sonnet 4.6 9.83 Anthropic: Claude Opus 4.6 9.83 Z.ai: GLM 5 9.80 Qwen: Qwen3 Coder Next 4.00 4.00 10.00 | $0.00052 মোট খরচ র্যাঙ্ক: #5/27 ৮৫% StepFun: Step 3.5 Flash $0.00000 Xiaomi: MiMo-V2-Flash $0.00029 Xiaomi: MiMo-V2-Flash $0.00029 Z.ai: GLM 4.7 Flash $0.00050 OpenAI: gpt-oss-120b $0.00052 Anthropic: Claude Opus 4.6 $0.07755 $0.00000 $0.07755 |
| Domain specific | 0/3 | 1.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #22/27 ১৯% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 7.00 Google: Gemini 3 Flash Preview 7.00 Anthropic: Claude Sonnet 4.6 7.00 Z.ai: GLM 4.7 Flash 7.00 OpenAI: gpt-oss-120b 1.00 Anthropic: Claude Sonnet 4.6 1.00 1.00 10.00 | 4.41 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #25/27 ৮% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Google: Gemini 3 Flash Preview 10.00 Anthropic: Claude Sonnet 4.6 10.00 OpenAI: gpt-oss-120b 4.41 Z.ai: GLM 5 4.41 4.41 10.00 | 22.2% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #22/27 ১৯% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 66.7% Google: Gemini 3 Flash Preview 66.7% Anthropic: Claude Sonnet 4.6 66.7% Z.ai: GLM 4.7 Flash 66.7% OpenAI: gpt-oss-120b 22.2% Z.ai: GLM 5 0.0% 0.0% 100.0% | 2 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #25/27 ৮% Google: Gemini 3 Flash Preview ০ Google: Gemini 3.1 Pro Preview ০ Google: Gemini 3 Pro Preview ০ Google: Gemini 3 Flash Preview ০ Anthropic: Claude Sonnet 4.6 ০ OpenAI: gpt-oss-120b ২ Z.ai: GLM 5 ২ ০ ২ | 8.53 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #2/17 ৯৪% Xiaomi: MiMo-V2-Flash 8.72 OpenAI: gpt-oss-120b 8.53 StepFun: Step 3.5 Flash 8.44 Z.ai: GLM 5 8.43 Z.ai: GLM 4.7 Flash 8.21 Google: Gemini 3 Pro Preview 2.44 2.44 8.72 | $0.00393 মোট খরচ র্যাঙ্ক: #14/27 ৫০% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00005 Xiaomi: MiMo-V2-Flash $0.00008 Qwen: Qwen3 Coder Next $0.00010 Qwen: Qwen3 Coder Next $0.00010 OpenAI: gpt-oss-120b $0.00393 Anthropic: Claude Sonnet 4.6 $0.64205 $0.00000 $0.64205 |
| Instructions following | 2/2 | 10.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #4/27 ৮৮% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Anthropic: Claude Sonnet 4.6 10.00 OpenAI: gpt-oss-120b 10.00 Z.ai: GLM 5 10.00 xAI: Grok 4.1 Fast 1.00 1.00 10.00 | 10.00 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #8/27 ৭৩% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 OpenAI: GPT-5.2 10.00 Anthropic: Claude Sonnet 4.6 10.00 OpenAI: gpt-oss-120b 10.00 Xiaomi: MiMo-V2-Flash 5.80 5.80 10.00 | 100.0% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #9/27 ৬৯% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% OpenAI: GPT-5.2 100.0% OpenAI: gpt-oss-120b 100.0% xAI: Grok 4.1 Fast 0.0% 0.0% 100.0% | 0 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #10/27 ৬৫% Google: Gemini 3 Flash Preview ০ Google: Gemini 3.1 Pro Preview ০ Google: Gemini 3 Pro Preview ০ Qwen: Qwen3.5 Plus 2026-02-15 ০ OpenAI: GPT-5.2 ০ OpenAI: gpt-oss-120b ০ Google: Gemini 3 Flash Preview ১ ০ ১ | 9.50 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #4/17 ৮১% Anthropic: Claude Sonnet 4.6 10.00 Z.ai: GLM 5 9.75 StepFun: Step 3.5 Flash 9.67 OpenAI: gpt-oss-120b 9.50 Anthropic: Claude Opus 4.6 9.50 xAI: Grok 4.1 Fast 3.25 3.25 10.00 | $0.00040 মোট খরচ র্যাঙ্ক: #11/27 ৬২% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00006 Xiaomi: MiMo-V2-Flash $0.00008 Qwen: Qwen3 Coder Next $0.00013 Qwen: Qwen3 Coder Next $0.00014 OpenAI: gpt-oss-120b $0.00040 Google: Gemini 3.1 Pro Preview $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | 1/3 | 5.00 সব বেঞ্চমার্ক টেস্টে গড় স্কোর। র্যাঙ্ক: #12/27 ৫৮% Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 Anthropic: Claude Sonnet 4.6 10.00 Z.ai: GLM 5 10.00 OpenAI: gpt-oss-120b 5.00 Z.ai: GLM 4.7 Flash 1.00 1.00 10.00 | 7.13 ধারাবাহিকতা স্কোর রিপিটগুলোর মধ্যে স্থিতিশীলতা দেখায় (10 = খুব স্থিতিশীল, ভুল হলেও ধারাবাহিকভাবে ভুল)। র্যাঙ্ক: #24/27 ১২% Google: Gemini 3 Flash Preview 10.00 Google: Gemini 3.1 Pro Preview 10.00 Google: Gemini 3 Pro Preview 10.00 Qwen: Qwen3.5 Plus 2026-02-15 10.00 OpenAI: GPT-5.2 10.00 OpenAI: gpt-oss-120b 7.13 MiniMax: MiniMax M2.5 4.79 4.79 10.00 | 44.4% প্রতি চেষ্টায় পাস রেট = পাস করা চেষ্টা / সব রিপিট মিলিয়ে মোট চেষ্টা। র্যাঙ্ক: #15/27 ৪৬% Google: Gemini 3 Flash Preview 100.0% Google: Gemini 3.1 Pro Preview 100.0% Google: Gemini 3 Pro Preview 100.0% Qwen: Qwen3.5 Plus 2026-02-15 100.0% Anthropic: Claude Sonnet 4.6 100.0% OpenAI: gpt-oss-120b 44.4% OpenAI: GPT-4o-mini 0.0% 0.0% 100.0% | 1 অস্থির টেস্টে রিপিটভেদে মিশ্র ফল হয়েছে (কমপক্ষে একটি পাস এবং একটি ফেল)। র্যাঙ্ক: #19/27 ৩১% Google: Gemini 3 Flash Preview ০ Google: Gemini 3.1 Pro Preview ০ Google: Gemini 3 Pro Preview ০ Qwen: Qwen3.5 Plus 2026-02-15 ০ OpenAI: GPT-5.2 ০ OpenAI: gpt-oss-120b ১ OpenAI: GPT-5 Nano ২ ০ ২ | 7.89 চূড়ান্ত উত্তরের সঠিকতা থেকে আলাদাভাবে যুক্তির স্বচ্ছতা, দক্ষতা ও সামঞ্জস্য পরিমাপ করে। র্যাঙ্ক: #12/17 ৩১% Z.ai: GLM 5 9.50 Anthropic: Claude Sonnet 4.6 9.44 Anthropic: Claude Opus 4.6 9.44 MoonshotAI: Kimi K2.5 9.26 StepFun: Step 3.5 Flash 9.22 OpenAI: gpt-oss-120b 7.89 Qwen: Qwen3 Coder Next 4.33 4.33 9.50 | $0.00059 মোট খরচ র্যাঙ্ক: #6/27 ৮১% StepFun: Step 3.5 Flash $0.00000 Z.ai: GLM 4.7 Flash $0.00008 OpenAI: GPT-4o-mini $0.00028 xAI: Grok 4.1 Fast $0.00053 Qwen: Qwen3 Coder Next $0.00058 OpenAI: gpt-oss-120b $0.00059 Qwen: Qwen3.5 Plus 2026-02-15 $0.05508 $0.00000 $0.05508 |