AI BENCHY
Advertise here

Kegagalan kategori AI BENCHY

Spesifik domain: Format tambahan

Spesifik domain
Format tambahan

Lihat model AI mana yang paling mungkin mengalami Format tambahan di Spesifik domain, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

10

Total kegagalan

12

Model yang paling terdampak

MiMo-V2.5-Pro 2
Peringkat Model Perusahaan Jumlah Format tambahan Skor kategori Tes benar Waktu respons (rata-rata)
#43 MiMo-V2.5-Pro medium Xiaomi 2 5.3 1/3 37.9s
#69 Claude Opus 4.6 medium Anthropic 2 3.0 0/3 83.4s
#47 Grok Build 0.1 medium X AI 1 5.3 1/3 158.0s
#52 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#84 Grok 4.20 Multi Agent Beta medium X AI 1 2.9 0/3 24.7s
#127 Grok 4.20 none X AI 1 3.0 0/3 687ms

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang