AI BENCHY Compare
Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite Preview
তুলনা করুন:
AI BENCHY টেস্ট স্যুট থেকে বেঞ্চমার্ক তৈরি হয়েছে: 2026-03-03
| মেট্রিক | Anthropic: Claude Sonnet 4.6 medium প্রকাশ: 2026-02-17 | Google: Gemini 3.1 Flash Lite Preview none প্রকাশ: 2026-03-03 |
|---|---|---|
| র্যাঙ্ক | #11 | #10 |
| গড় স্কোর | 7.43 | 7.70 |
| ধারাবাহিকতা | 9.40 | 9.54 |
| প্রতি ফলাফলে খরচ | 8.105 | 0.116 |
| মোট খরচ | $0.811 | $0.011 |
| সঠিক টেস্ট | ||
| প্রতি চেষ্টায় পাস রেট | 73.8% | 69.1% |
| অস্থির টেস্ট | 1 | 1 |
| আউটপুট টোকেন | 29,098 | 4,307 |
| রিজনিং টোকেন | 20,435 | 0 |
স্কোর বনাম মোট খরচ
বিভাগভিত্তিক বিশ্লেষণ
| অ্যান্টি-এআই কৌশল | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 7.00 | 10.00 | 66.7% | 0 | 1,031 | 1,093 | |
| Google: Gemini 3.1 Flash Lite Preview | 6.00 | 7.85 | 55.6% | 1 | 1,086 | 0 |
| ডেটা পার্সিং ও নিষ্কাশন | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 727 | 907 | |
| Google: Gemini 3.1 Flash Lite Preview | 9.88 | 10.00 | 100.0% | 0 | 399 | 0 |
| ডোমেইন-নির্দিষ্ট | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 1.00 | 7.21 | 11.1% | 1 | 25,790 | 16,919 | |
| Google: Gemini 3.1 Flash Lite Preview | 4.00 | 10.00 | 33.3% | 0 | 568 | 0 |
| নির্দেশনা অনুসরণ | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 316 | 523 | |
| Google: Gemini 3.1 Flash Lite Preview | 9.00 | 10.00 | 50.0% | 0 | 574 | 0 |
| Puzzle Solving | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 579 | 642 | |
| Google: Gemini 3.1 Flash Lite Preview | 10.00 | 10.00 | 100.0% | 0 | 898 | 0 |
| টুল কলিং | স্কোর | ধারাবাহিকতা | প্রতি চেষ্টায় পাস রেট | অস্থির টেস্ট | সঠিক টেস্ট | আউটপুট টোকেন | রিজনিং টোকেন |
|---|---|---|---|---|---|---|---|
| Anthropic: Claude Sonnet 4.6 | 10.00 | 10.00 | 100.0% | 0 | 655 | 351 | |
| Google: Gemini 3.1 Flash Lite Preview | 10.00 | 10.00 | 100.0% | 0 | 782 | 0 |
দ্রুত তুলনা
তুলনার জুটি বদলান
Claude Sonnet 4.6mediumvsGPT-5.2 ChatnoneClaude Sonnet 4.6mediumvsGPT-5.3 ChatnoneClaude Sonnet 4.6mediumvsGemini 3 Flash PreviewnoneGemini 3.1 Flash Lite PreviewnonevsGPT-5.3-CodexmediumClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewhighClaude Sonnet 4.6mediumvsGemini 3.1 Flash Lite PreviewlowGemini 3.1 Flash Lite PreviewnonevsGLM 5mediumGemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmediumবিনামূল্যে উপলভ্যDeepSeek V3.2mediumvsGemini 3.1 Flash Lite PreviewnoneGemini 3.1 Flash Lite PreviewnonevsGPT-5.2mediumGemini 3.1 Flash Lite PreviewnonevsQwen3.5-27BmediumGemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium