AI BENCHY
Your ad here

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Scor ↓.

Modele afișate

15

Eșecuri totale

572

Modelul cel mai afectat

Gemini 3.1 Pro Preview 1
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#63 Qwen3.5-35B-A3B none Qwen 9 6.1 7/18 3.82s
#64 DeepSeek V3.2 none DeepSeek 8 6.1 7/18 12.1s
#65 MiMo-V2-Pro none Xiaomi 9 6.0 7/18 2.39s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s
#69 Kimi K2.6 none Moonshot AI 8 5.8 7/18 2.05s
#70 Qwen3.5-122B-A10B none Qwen 11 5.7 6/18 3.69s
#71 MiniMax M2.5 medium Minimax 5 5.7 5/18 39.6s
#72 Hunter Alpha none OpenRouter 9 5.7 6/18 4.58s
#73 Mistral Small 4 medium Mistral 8 5.7 5/18 5.64s
#74 GLM 4.7 Flash none Z.ai 10 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 10 5.6 5/18 4.33s
#76 Kimi K2.5 none Moonshot AI 12 5.5 6/18 13.4s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)