AI BENCHY
Your ad here

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Scor ↑.

Modele afișate

15

Eșecuri totale

572

Modelul cel mai afectat

LFM2-24B-A2B 9
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#83 Mistral Small 4 none Mistral 11 5.2 5/18 665ms
#82 Grok 4.20 none X AI 9 5.2 5/18 1.11s
#81 Elephant medium Openrouter 9 5.2 5/18 1.27s
#80 MiniMax M2.7 medium Minimax 5 5.3 4/18 31.1s
#79 Grok 4.20 Beta none X AI 10 5.3 4/18 1.19s
#78 Trinity Large Preview none Arcee AI 11 5.3 5/18 5.07s
#77 GLM 5 Turbo none Z.ai 10 5.5 6/18 2.94s
#76 Kimi K2.5 none Moonshot AI 12 5.5 6/18 13.4s
#74 GLM 4.7 Flash none Z.ai 10 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 10 5.6 5/18 4.33s
#73 Mistral Small 4 medium Mistral 8 5.7 5/18 5.64s
#72 Hunter Alpha none OpenRouter 9 5.7 6/18 4.58s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#70 Qwen3.5-122B-A10B none Qwen 11 5.7 6/18 3.69s
#69 Kimi K2.6 none Moonshot AI 8 5.8 7/18 2.05s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)