AI BENCHY
Advertise here

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↓.

Modele afișate

15

Eșecuri totale

1204

Modelul cel mai afectat

Kimi K2.5 5
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#35 Gemini 3 PRO Preview medium Google 3 7.6 14/21 9.05s
#2 Gemini 3.5 Flash high Google 1 9.6 20/21 8.84s
#140 Qwen3 Coder Next none Qwen 14 4.9 5/21 8.62s
#150 Qwen3 Coder Next medium Qwen 13 4.6 4/21 8.58s
#159 Ling-2.6-1T none Inclusionai 12 4.3 3/21 7.72s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#102 Gemma 4 26B A4B none Google 10 6.0 8/21 5.91s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#141 Nemotron 3 Super none NVIDIA 14 4.9 5/21 5.30s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#7 Gemini 3.5 Flash medium Google 2 9.0 18/21 4.94s
#11 Claude Opus 4.7 medium Anthropic 3 8.7 17/21 4.73s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)