Clasament al eșecurilor pentru Formatare suplimentară

Eșecuri AI BENCHY

Vezi ce modele AI se lovesc cel mai des de Formatare suplimentară, ca să identifici riscurile de fiabilitate înainte să alegi.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Categorii asociate

Trucuri anti-AI8 Specific domeniului3 Parsare și extragere de date1 Rezolvare de puzzle-uri1

Rang	Model	Companie	Număr de Formatare suplimentară	Scor mediu	Teste corecte	Timp de răspuns (mediu)
#26	Claude Opus 4.6 medium	Anthropic	4	6.6	10/16	22.9s
#25	Claude Sonnet 4.6 none	Anthropic	3	6.8	10/16	5.57s
#11	Claude Sonnet 4.6 medium	Anthropic	2	7.7	12/16	11.2s
#33	DeepSeek V3.2 none	DeepSeek	2	5.5	7/16	12.9s
#48	Qwen3 Coder Next none	Qwen	1	4.0	4/16	11.7s
#54	MiMo-V2-Flash none	Xiaomi	1	2.9	3/16	2.97s

Eșecuri Formatare suplimentară