Eșecuri pe categorii AI BENCHY
Respectarea instrucțiunilor: Formatare suplimentară
Respectarea instrucțiunilor
Formatare suplimentară
Vezi ce modele AI au cele mai mari șanse să întâmpine Formatare suplimentară la Respectarea instrucțiunilor, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.
Motive de eșec
| Rang | Model | Companie | Număr de Formatare suplimentară | Scor de categorie | Teste corecte | Timp de răspuns (mediu) |
|---|---|---|---|---|---|---|
| #92 | DeepSeek V4 Flash none | DeepSeek | 1 | 6.5 | 1/2 | 17.5s |
| #108 | HY3 Preview none | Tencent | 1 | 6.3 | 1/2 | 13.0s |