AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Pengetahuan umum: Jawaban salah

Pengetahuan umum
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Pengetahuan umum, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

15

Total kegagalan

117

Model yang paling terdampak

Claude Opus 4.7 1

Alasan kegagalan

Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#24 Grok 4.3 medium X AI 1 3.0 0/1 44.5s
#25 Gemini 2.5 Flash medium Google 1 3.0 0/1 2.76s
#26 GPT-5.4 medium OpenAI 1 3.0 0/1 14.0s
#27 Gemini 3.1 Flash Lite medium Google 1 3.0 0/1 3.08s
#28 Qwen3.6 Plus medium Qwen 1 3.0 0/1 47.5s
#29 Gemini 3 Flash Preview none Google 1 3.0 0/1 1.07s
#30 Gemini 3.1 Flash Lite Preview low Google 1 3.0 0/1 1.35s
#31 Qwen3.5-122B-A10B medium Qwen 1 3.0 0/1 52.9s
#33 Qwen3.5 Plus 2026-04-20 medium Qwen 1 3.0 0/1 92.6s
#34 HY3 Preview medium Tencent 1 3.0 0/1 39.9s
#35 Claude Sonnet 4.6 medium Anthropic 1 3.0 0/1 30.1s
#36 Step 3.5 Flash none Stepfun 1 3.0 0/1 114.1s
#37 MiMo-V2-Pro medium Xiaomi 1 3.0 0/1 82.7s
#38 Gemma 4 26B A4B medium Google 1 3.0 0/1 180.9s
#39 HY3 Preview low Tencent 1 3.0 0/1 41.7s

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang