Clasament Specific domeniului x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

421

Modelul cel mai afectat

Muse Spark 1.1 3

Motive de eșec

Răspuns greșit421 Timp expirat43 Formatare suplimentară17 Fără răspuns8 Eroare API7 Nu a urmat instrucțiunile1

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

202/202

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
Total teste 3 Teste greșite 2 Cost total $0.147 Timp de răspuns (mediu) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Total teste 3 Teste greșite 2 Cost total $0.022 Timp de răspuns (mediu) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
Total teste 3 Teste greșite 2 Cost total $0.025 Timp de răspuns (mediu) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Total teste 3 Teste greșite 2 Cost total $0.047 Timp de răspuns (mediu) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
Total teste 3 Teste greșite 3 Cost total $0.054 Timp de răspuns (mediu) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
Total teste 3 Teste greșite 2 Cost total $0.026 Timp de răspuns (mediu) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Total teste 3 Teste greșite 3 Cost total $5.599 Timp de răspuns (mediu) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
Total teste 3 Teste greșite 2 Cost total $0.008 Timp de răspuns (mediu) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Total teste 3 Teste greșite 2 Cost total $0.033 Timp de răspuns (mediu) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
Total teste 3 Teste greșite 2 Cost total $0.032 Timp de răspuns (mediu) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Total teste 3 Teste greșite 2 Cost total $0.030 Timp de răspuns (mediu) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Total teste 3 Teste greșite 3 Cost total $0.340 Timp de răspuns (mediu) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Total teste 3 Teste greșite 3 Cost total $0.166 Timp de răspuns (mediu) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 2.33s

←

1 9 10 11 14

→

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Specific domeniului: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat