AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Kegagalan kategori AI BENCHY

Parsing dan ekstraksi data: Jawaban salah

Parsing dan ekstraksi data
Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Parsing dan ekstraksi data, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

15

Total kegagalan

19

Model yang paling terdampak

Qwen3 Coder Next 1
Peringkat Model Perusahaan Jumlah Jawaban salah Skor kategori Tes benar Waktu respons (rata-rata)
#92 Qwen3 Coder Next medium Qwen 1 6.5 1/2 81.8s
#76 Kimi K2.5 none Moonshot AI 1 7.3 1/2 42.1s
#80 MiniMax M2.7 medium Minimax 1 6.3 1/2 21.9s
#57 GPT-5 Nano medium OpenAI 2 3.7 0/2 21.4s
#23 MiMo-V2-Pro medium Xiaomi 1 7.3 1/2 17.2s
#64 DeepSeek V3.2 none DeepSeek 1 6.3 1/2 9.42s
#71 MiniMax M2.5 medium Minimax 2 4.6 0/2 7.48s
#74 GLM 4.7 Flash none Z.ai 1 7.3 1/2 4.82s
#68 gpt-oss-120b medium OpenAI 1 6.4 1/2 1.98s
#87 Qwen3 Coder Next none Qwen 1 6.5 1/2 1.32s
#96 GPT-5.4 Nano none OpenAI 1 6.5 1/2 1.11s
#54 Mercury 2 medium Inception 1 7.3 1/2 1.11s
#85 Elephant none Openrouter 1 6.5 1/2 1.04s
#81 Elephant medium Openrouter 1 6.5 1/2 979ms
#98 LFM2-24B-A2B none Liquid 2 3.0 0/2 714ms

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang