AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Pemecahan teka-teki
Kedaluwarsa

Lihat model AI mana yang paling mungkin mengalami Kedaluwarsa di Pemecahan teka-teki, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

3

Total kegagalan

4

Model yang paling terdampak

Qwen3.5-Flash 2
Peringkat Model Perusahaan Jumlah Kedaluwarsa Skor kategori Tes benar Waktu respons (rata-rata)
#24 Qwen3.5-Flash medium Qwen 2 4.0 1/3 56.7s
#35 Qwen3.5-35B-A3B medium Qwen 1 4.0 1/3 31.6s
#43 MiniMax M2.5 medium Minimax 1 4.0 1/3 11.5s

Model teratas menurut Jumlah Kedaluwarsa

Jumlah Kedaluwarsa vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang