AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY ব্যর্থতা

ভুল উত্তর ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: প্রতিক্রিয়া সময় (গড়) ↓.

দেখানো মডেল

15

মোট ব্যর্থতা

1204

সবচেয়ে বেশি প্রভাবিত মডেল

Kimi K2.5 5
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#145 Laguna M.1 none Poolside 10 4.8 4/19 2.89s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#152 MiMo-V2-Flash none Xiaomi 13 4.6 4/21 2.76s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#101 Mimo V2 Omni none Xiaomi 10 6.0 8/21 2.44s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 12 6.3 9/21 2.31s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 12 6.0 8/21 2.27s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s
#143 MiMo-V2.5 none Xiaomi 14 4.9 5/21 2.20s

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল