AI BENCHY
Advertise here

AI BENCHY ব্যর্থতা

ভুল উত্তর ব্যর্থতা

দেখুন কোন AI মডেলগুলো সবচেয়ে বেশি ভুল উত্তর সমস্যায় পড়ে, যাতে বেছে নেওয়ার আগে নির্ভরযোগ্যতার ঝুঁকি বুঝতে পারেন। সাজান: স্কোর ↑.

দেখানো মডেল

15

মোট ব্যর্থতা

1204

সবচেয়ে বেশি প্রভাবিত মডেল

Granite 4.1 8B 13
র‍্যাঙ্ক মডেল কোম্পানি ভুল উত্তর সংখ্যা স্কোর সঠিক টেস্ট প্রতিক্রিয়া সময় (গড়)
#118 Qwen3.6 27B none Qwen 11 5.6 7/21 3.72s
#117 Qwen3.5-35B-A3B none Qwen 12 5.6 7/21 3.37s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#111 Owl Alpha medium Openrouter 10 5.7 8/21 11.9s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#108 Qwen3.5-Flash none Qwen 13 5.8 8/21 3.58s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#106 Grok 4.20 Beta none X AI 10 5.8 6/18 1.19s
#105 Nemotron 3 Super medium NVIDIA 5 5.8 8/21 32.0s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 12 6.0 8/21 2.27s

ভুল উত্তর সংখ্যা অনুযায়ী শীর্ষ মডেল

ভুল উত্তর সংখ্যা বনাম স্কোর

প্রতিক্রিয়া সময় (গড়) অনুযায়ী শীর্ষ মডেল