AI BENCHY
Advertise here

AI BENCHY ব্যর্থতা

ভুল উত্তর ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: ব্যর্থতার সংখ্যা ↑.

দেখানো মডেল

13

মোট ব্যর্থতা

1204

সবচেয়ে বেশি প্রভাবিত মডেল

Gemini 3 Flash Preview 1
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#152 MiMo-V2-Flash none Xiaomi 13 4.6 4/21 2.76s
#153 Qwen3.6 35B A3B none Qwen 13 4.6 4/21 3.73s
#157 Grok 4.1 Fast none X AI 13 4.4 3/19 1.62s
#163 Granite 4.1 8B none IBM Granite 13 4.0 2/21 728ms
#140 Qwen3 Coder Next none Qwen 14 4.9 5/21 8.62s
#141 Nemotron 3 Super none NVIDIA 14 4.9 5/21 5.30s
#143 MiMo-V2.5 none Xiaomi 14 4.9 5/21 2.20s
#154 Qwen3.5-9B none Qwen 14 4.6 4/21 1.89s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#142 Mistral Small 4 none Mistral 15 4.9 5/21 630ms
#147 GPT-4o-mini none OpenAI 15 4.8 5/21 1.77s
#148 GPT-5.4 Nano none OpenAI 15 4.7 4/21 1.48s
#155 Mercury 2 none Inception 16 4.5 4/21 653ms

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল