Peringkat kegagalan Format tambahan

Kegagalan AI BENCHY

Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Kategori terkait

Trik anti-AI8 Spesifik domain3 Parsing dan ekstraksi data1 Pemecahan teka-teki1

Peringkat	Model	Perusahaan	Jumlah Format tambahan	Skor Rata-rata	Tes benar	Waktu respons (rata-rata)
#26	Claude Opus 4.6 medium	Anthropic	4	6.6	10/16	22.9s
#25	Claude Sonnet 4.6 none	Anthropic	3	6.8	10/16	5.57s
#11	Claude Sonnet 4.6 medium	Anthropic	2	7.7	12/16	11.2s
#33	DeepSeek V3.2 none	DeepSeek	2	5.5	7/16	12.9s
#48	Qwen3 Coder Next none	Qwen	1	4.0	4/16	11.7s
#54	MiMo-V2-Flash none	Xiaomi	1	2.9	3/16	2.97s

Kegagalan Format tambahan