AI BENCHY
Advertise here

Eșecuri pe categorii AI BENCHY

Parsare și extragere de date: Răspuns greșit

Parsare și extragere de date
Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Parsare și extragere de date, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↑.

Modele afișate

15

Eșecuri totale

35

Modelul cel mai afectat

MiMo-V2.5 1
Rang Model Companie Număr de Răspuns greșit Scor de categorie Teste corecte Timp de răspuns (mediu)
#56 MiMo-V2.5 medium Xiaomi 1 2.7 0/2 6.33s
#94 GPT-5 Nano medium OpenAI 2 3.7 0/2 21.4s
#96 Ring-2.6-1T none Inclusionai 1 3.0 0/2 45.9s
#100 Grok Build 0.1 none X AI 1 3.8 0/2 9.33s
#129 MiniMax M2.5 medium Minimax 2 4.6 0/2 7.48s
#160 LFM2-24B-A2B none Liquid 2 3.0 0/2 714ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 2 3.8 0/2 1.42s
#163 Granite 4.1 8B none IBM Granite 2 3.0 0/2 575ms
#10 Claude Opus 4.8 medium Anthropic 1 7.1 1/2 12.3s
#43 MiMo-V2.5-Pro medium Xiaomi 1 7.3 1/2 18.8s
#51 Mimo V2 PRO medium Xiaomi 1 7.3 1/2 17.2s
#57 Step 3.7 Flash low Stepfun 1 7.3 1/2 2.29s
#68 Claude Opus 4.8 none Anthropic 1 7.3 1/2 1.77s
#75 Ring-2.6-1T medium Inclusionai 1 6.5 1/2 37.4s
#81 Mercury 2 medium Inception 1 7.3 1/2 1.11s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat