AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan AI BENCHY

Kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

8

Total kegagalan

1104

Model yang paling terdampak

Mercury 2 15
Peringkat Model Perusahaan Jumlah Jawaban salah Skor Tes benar Waktu respons (rata-rata)
#6 Gemini 3.5 Flash medium Google 2 9.0 17/20 4.29s
#7 Claude Opus 4.7 medium Anthropic 2 8.9 17/20 4.48s
#14 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#25 Gemma 4 31B medium Google 2 8.0 14/20 35.4s
#68 Qwen3.5-35B-A3B medium Qwen 2 7.3 11/20 69.7s
#1 Gemini 3 Flash Preview medium Google 1 9.8 19/20 16.5s
#2 Gemini 3.5 Flash high Google 1 9.6 19/20 8.30s
#37 Step 3.5 Flash none Stepfun 1 7.8 9/12 39.0s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)