Kegagalan kategori AI BENCHY

Parsing dan ekstraksi data

Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Parsing dan ekstraksi data, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Alasan kegagalan terkait

Jawaban salah14 Kesalahan API4 Tidak ada jawaban2 Format tambahan1

Kategori terkait

Spesifik domain98 Pemecahan teka-teki55 Trik anti-AI53 Kepatuhan instruksi26 Gabungan21 Parsing dan ekstraksi data14 Kecerdasan umum6 Pemanggilan alat2

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Tes benar	Waktu respons (rata-rata)
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

Model teratas menurut Jumlah Jawaban salah