AI BENCHY
Bandingkan Grafik Metodologi
❤️ Made by XCS
Your ad here

Kegagalan kategori AI BENCHY

Parsing dan ekstraksi data
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Parsing dan ekstraksi data, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Jumlah kegagalan ↑.

Model yang ditampilkan

11

Total kegagalan

14

Model yang paling terdampak

DeepSeek V3.2 1
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#33 DeepSeek V3.2 none DeepSeek 1 5.4 1/2 9.42s
#36 Mercury 2 medium Inception 1 5.5 1/2 1.11s
#39 gpt-oss-120b medium OpenAI 1 5.5 1/2 1.98s
#46 Kimi K2.5 none Moonshot AI 1 5.4 1/2 42.1s
#48 Qwen3 Coder Next none Qwen 1 5.4 1/2 1.32s
#49 GLM 4.7 Flash none Z.ai 1 5.4 1/2 4.82s
#50 Qwen3 Coder Next medium Qwen 1 5.4 1/2 81.8s
#51 Mercury 2 none Inception 1 5.5 1/2 667ms
#34 GPT-5 Nano medium OpenAI 2 10.0 0/2 21.4s
#43 MiniMax M2.5 medium Minimax 2 10.0 0/2 7.48s
#55 LFM2-24B-A2B none Liquid 2 10.0 0/2 714ms

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs skor rata-rata

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang