Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

1585

Modelul cel mai afectat

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorii

În categoria Specific domeniului421 În categoria Trucuri anti-AI293 În categoria Programare259 În categoria Rezolvare de puzzle-uri204 În categoria Cultură generală172 În categoria Combinat69 În categoria Inteligență generală62 În categoria Respectarea instrucțiunilor61 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

215/215

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Total teste 22 Teste greșite 13 Cost total $0.019 Timp de răspuns (mediu) 21.9s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Total teste 21 Teste greșite 9 Cost total $0.333 Timp de răspuns (mediu) 22.2s
#24	GPT-5.2 medium	OpenAI	3	8.4	$0.951	14/22	22.6s
Total teste 22 Teste greșite 8 Cost total $0.951 Timp de răspuns (mediu) 22.6s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Total teste 21 Teste greșite 7 Cost total $0.323 Timp de răspuns (mediu) 23.0s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Total teste 21 Teste greșite 10 Cost total $0.457 Timp de răspuns (mediu) 23.1s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Total teste 22 Teste greșite 7 Cost total $1.533 Timp de răspuns (mediu) 23.1s
#42	GLM 5.2 medium	Z.ai	3	7.8	$0.187	15/21	23.3s
Total teste 21 Teste greșite 6 Cost total $0.187 Timp de răspuns (mediu) 23.3s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Total teste 19 Teste greșite 10 Cost total $0.069 Timp de răspuns (mediu) 23.8s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Total teste 22 Teste greșite 11 Cost total $0.467 Timp de răspuns (mediu) 24.0s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Total teste 21 Teste greșite 11 Cost total $0.015 Timp de răspuns (mediu) 24.6s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total teste 22 Teste greșite 7 Cost total $1.357 Timp de răspuns (mediu) 25.0s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total teste 22 Teste greșite 14 Cost total $0.073 Timp de răspuns (mediu) 25.3s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Total teste 22 Teste greșite 11 Cost total $0.476 Timp de răspuns (mediu) 25.6s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total teste 22 Teste greșite 8 Cost total $2.057 Timp de răspuns (mediu) 25.9s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Total teste 22 Teste greșite 10 Cost total $0.756 Timp de răspuns (mediu) 25.9s

←

1 9 10 11 15

→

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)