AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan AI BENCHY

Kegagalan Format tambahan

Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

6

Total kegagalan

13

Model yang paling terdampak

Claude Opus 4.6 4
Peringkat Model Perusahaan Jumlah Format tambahan Skor Rata-rata Tes benar Waktu respons (rata-rata)
#26 Claude Opus 4.6 medium Anthropic 4 6.6 10/16 22.9s
#25 Claude Sonnet 4.6 none Anthropic 3 6.8 10/16 5.57s
#11 Claude Sonnet 4.6 medium Anthropic 2 7.7 12/16 11.2s
#33 DeepSeek V3.2 none DeepSeek 2 5.5 7/16 12.9s
#48 Qwen3 Coder Next none Qwen 1 4.0 4/16 11.7s
#54 MiMo-V2-Flash none Xiaomi 1 2.9 3/16 2.97s

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)