AI BENCHY
Your ad here

Kegagalan kategori AI BENCHY

Spesifik domain: Jawaban salah

Spesifik domain
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

3

Total kegagalan

182

Model yang paling terdampak

Qwen3.6 Plus Preview 3
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#74 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#80 MiniMax M2.7 medium Minimax 1 3.0 0/3 19.0s
#98 LFM2-24B-A2B none Liquid 1 5.9 1/3 287ms

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang