AI BENCHY
Your ad here

Eșecuri pe categorii AI BENCHY

Specific domeniului: Răspuns greșit

Specific domeniului
Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe. Sortează după: Teste corecte ↓.

Modele afișate

15

Eșecuri totale

182

Modelul cel mai afectat

Gemini 3.1 Pro Preview 1
Rang Model Companie Număr de Răspuns greșit Scor de categorie Teste corecte Timp de răspuns (mediu)
#2 Gemini 3.1 Pro Preview medium Google 1 7.7 2/3 32.7s
#4 Claude Opus 4.7 none Anthropic 1 7.7 2/3 1.19s
#14 Gemma 4 31B medium Google 1 7.7 2/3 38.5s
#21 Gemini 3 Flash Preview none Google 1 7.7 2/3 963ms
#42 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 3.54s
#48 Gemma 4 31B none Google 1 7.7 2/3 3.22s
#59 Qwen3.5-Flash none Qwen 1 7.7 2/3 905ms
#63 Qwen3.5-35B-A3B none Qwen 1 7.7 2/3 485ms
#74 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#5 Gemini 3 Flash Preview low Google 2 5.3 1/3 8.05s
#6 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#7 GPT-5.3-Codex medium OpenAI 2 5.9 1/3 64.3s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 1 5.3 1/3 17.5s
#10 Qwen3.5-27B medium Qwen 1 5.3 1/3 79.5s
#11 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat