Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

1558

Modelul cel mai afectat

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorii

În categoria Specific domeniului412 În categoria Trucuri anti-AI293 În categoria Programare252 În categoria Rezolvare de puzzle-uri201 În categoria Cultură generală168 În categoria Combinat68 În categoria Respectarea instrucțiunilor61 În categoria Inteligență generală59 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

209/209

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#89	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Total teste 22 Teste greșite 9 Cost total $0.085 Timp de răspuns (mediu) 2.95s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Total teste 21 Teste greșite 17 Cost total $0.008 Timp de răspuns (mediu) 2.98s
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total teste 21 Teste greșite 13 Cost total $0.052 Timp de răspuns (mediu) 2.99s
#94	Claude Opus 4.7 none	Anthropic	3	6.6	$0.505	16/19	3.02s
Total teste 19 Teste greșite 3 Cost total $0.505 Timp de răspuns (mediu) 3.02s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Total teste 22 Teste greșite 16 Cost total $0.147 Timp de răspuns (mediu) 3.50s
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Total teste 22 Teste greșite 15 Cost total $0.062 Timp de răspuns (mediu) 3.74s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Total teste 22 Teste greșite 14 Cost total $0.095 Timp de răspuns (mediu) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Total teste 21 Teste greșite 12 Cost total $0.041 Timp de răspuns (mediu) 4.03s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Total teste 22 Teste greșite 16 Cost total $0.068 Timp de răspuns (mediu) 4.12s
#65	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Total teste 22 Teste greșite 9 Cost total $0.117 Timp de răspuns (mediu) 4.27s
#116	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total teste 22 Teste greșite 14 Cost total $0.066 Timp de răspuns (mediu) 4.40s
#59	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Total teste 22 Teste greșite 7 Cost total $0.197 Timp de răspuns (mediu) 4.52s
#64	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Total teste 22 Teste greșite 9 Cost total $0.115 Timp de răspuns (mediu) 4.61s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Total teste 22 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 4.62s
#196	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Total teste 18 Teste greșite 12 Cost total $0.000 Timp de răspuns (mediu) 4.70s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)