Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↓.

Modele afișate

Eșecuri totale

1558

Modelul cel mai afectat

Step 3.5 Flash 4

Categorii

În categoria Specific domeniului412 În categoria Trucuri anti-AI293 În categoria Programare252 În categoria Rezolvare de puzzle-uri201 În categoria Cultură generală168 În categoria Combinat68 În categoria Respectarea instrucțiunilor61 În categoria Inteligență generală59 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

209/209

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#130	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Total teste 21 Teste greșite 10 Cost total $0.108 Timp de răspuns (mediu) 174.2s
#97	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Total teste 22 Teste greșite 13 Cost total $0.469 Timp de răspuns (mediu) 148.7s
#194	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Total teste 22 Teste greșite 18 Cost total $0.166 Timp de răspuns (mediu) 142.6s
#137	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Total teste 22 Teste greșite 13 Cost total $0.000 Timp de răspuns (mediu) 137.1s
#60	LongCat 2.0 medium	Meituan	7	7.4	$0.478	12/22	136.6s
Total teste 22 Teste greșite 10 Cost total $0.478 Timp de răspuns (mediu) 136.6s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Total teste 22 Teste greșite 11 Cost total $0.837 Timp de răspuns (mediu) 112.5s
#58	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Total teste 22 Teste greșite 9 Cost total $1.627 Timp de răspuns (mediu) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Total teste 22 Teste greșite 10 Cost total $1.036 Timp de răspuns (mediu) 110.0s
#99	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Total teste 22 Teste greșite 12 Cost total $0.779 Timp de răspuns (mediu) 106.3s
#95	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Total teste 22 Teste greșite 8 Cost total $0.089 Timp de răspuns (mediu) 103.8s
#91	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Total teste 22 Teste greșite 12 Cost total $0.391 Timp de răspuns (mediu) 100.3s
#77	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Total teste 22 Teste greșite 12 Cost total $0.600 Timp de răspuns (mediu) 99.0s
#80	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Total teste 22 Teste greșite 11 Cost total $0.101 Timp de răspuns (mediu) 92.5s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Total teste 22 Teste greșite 8 Cost total $0.437 Timp de răspuns (mediu) 89.2s
#114	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Total teste 22 Teste greșite 10 Cost total $0.139 Timp de răspuns (mediu) 84.8s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)