AI BENCHY
Advertise here

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

13

Eșecuri totale

1204

Modelul cel mai afectat

Mistral Small 4 15
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#103 DeepSeek V4 Pro high DeepSeek 4 6.0 8/21 65.2s
#129 MiniMax M2.5 medium Minimax 7 5.3 5/21 65.4s
#12 Gemini 3.1 Flash Lite Preview high Google 2 8.6 13/16 68.1s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#161 Qwen3.5-9B medium Qwen 2 4.2 3/21 82.2s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)