Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi.

Modele afișate

Eșecuri totale

1523

Modelul cel mai afectat

Categorii

În categoria Specific domeniului404 În categoria Trucuri anti-AI290 În categoria Programare249 În categoria Rezolvare de puzzle-uri193 În categoria Cultură generală165 În categoria Combinat67 În categoria Respectarea instrucțiunilor57 În categoria Inteligență generală55 În categoria Parsare și extragere de date40 În categoria Apelare instrumente3

205/205

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Total teste 22 Teste greșite 18 Cost total $0.030 Timp de răspuns (mediu) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Total teste 22 Teste greșite 17 Cost total $0.022 Timp de răspuns (mediu) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Total teste 22 Teste greșite 16 Cost total $0.127 Timp de răspuns (mediu) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Total teste 22 Teste greșite 17 Cost total $0.010 Timp de răspuns (mediu) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Total teste 22 Teste greșite 17 Cost total $0.017 Timp de răspuns (mediu) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Total teste 22 Teste greșite 18 Cost total $0.041 Timp de răspuns (mediu) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Total teste 22 Teste greșite 15 Cost total $0.397 Timp de răspuns (mediu) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Total teste 22 Teste greșite 16 Cost total $0.142 Timp de răspuns (mediu) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Total teste 22 Teste greșite 17 Cost total $0.008 Timp de răspuns (mediu) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Total teste 22 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total teste 22 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Total teste 22 Teste greșite 18 Cost total $0.021 Timp de răspuns (mediu) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total teste 22 Teste greșite 14 Cost total $0.066 Timp de răspuns (mediu) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total teste 22 Teste greșite 14 Cost total $0.073 Timp de răspuns (mediu) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Total teste 22 Teste greșite 16 Cost total $0.095 Timp de răspuns (mediu) 1.53s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)