AI BENCHY
Advertise here

Kegagalan kategori AI BENCHY

Spesifik domain: Jawaban salah

Spesifik domain
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

4

Total kegagalan

314

Model yang paling terdampak

Qwen3.6 Max Preview 3
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#122 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#130 MiniMax M2.7 medium Minimax 1 3.0 0/3 19.0s
#132 Mistral Small 4 medium Mistral 1 5.3 1/3 6.11s
#160 LFM2-24B-A2B none Liquid 1 5.9 1/3 287ms

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang