Eșecuri pe categorii AI BENCHY

Parsare și extragere de date

Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Parsare și extragere de date, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Motive de eșec asociate

Răspuns greșit14 Eroare API4 Fără răspuns2 Formatare suplimentară1

Categorii asociate

Specific domeniului98 Rezolvare de puzzle-uri55 Trucuri anti-AI53 Respectarea instrucțiunilor26 Combinat21 Parsare și extragere de date14 Inteligență generală6 Apelare instrumente2

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Teste corecte	Timp de răspuns (mediu)
#34	GPT-5 Nano medium	OpenAI	2	10.0	0/2	21.4s
#43	MiniMax M2.5 medium	Minimax	2	10.0	0/2	7.48s
#55	LFM2-24B-A2B none	Liquid	2	10.0	0/2	714ms
#33	DeepSeek V3.2 none	DeepSeek	1	5.4	1/2	9.42s
#36	Mercury 2 medium	Inception	1	5.5	1/2	1.11s
#39	gpt-oss-120b medium	OpenAI	1	5.5	1/2	1.98s
#46	Kimi K2.5 none	Moonshot AI	1	5.4	1/2	42.1s
#48	Qwen3 Coder Next none	Qwen	1	5.4	1/2	1.32s
#49	GLM 4.7 Flash none	Z.ai	1	5.4	1/2	4.82s
#50	Qwen3 Coder Next medium	Qwen	1	5.4	1/2	81.8s
#51	Mercury 2 none	Inception	1	5.5	1/2	667ms

Top modele după Număr de Răspuns greșit