AI BENCHY
Advertise here

AI BENCHY ব্যর্থতা

ভুল উত্তর ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন।

দেখানো মডেল

8

মোট ব্যর্থতা

1104

সবচেয়ে বেশি প্রভাবিত মডেল

Mercury 2 15
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.48s
#14 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#25 Gemma 4 31B medium Google 2 8.0 14/20 35.4s
#68 Qwen3.5-35B-A3B medium Qwen 2 7.3 11/20 69.7s
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.5s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#37 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল