Clasament Specific domeniului x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

421

Modelul cel mai afectat

Muse Spark 1.1 3

Motive de eșec

Răspuns greșit421 Timp expirat43 Formatare suplimentară17 Fără răspuns8 Eroare API7 Nu a urmat instrucțiunile1

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

202/202

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Total teste 3 Teste greșite 2 Cost total $1.166 Timp de răspuns (mediu) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Total teste 3 Teste greșite 2 Cost total $0.454 Timp de răspuns (mediu) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Total teste 3 Teste greșite 2 Cost total $0.779 Timp de răspuns (mediu) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Total teste 3 Teste greșite 3 Cost total $0.078 Timp de răspuns (mediu) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Total teste 3 Teste greșite 3 Cost total $0.600 Timp de răspuns (mediu) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Total teste 3 Teste greșite 2 Cost total $0.096 Timp de răspuns (mediu) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Total teste 3 Teste greșite 3 Cost total $1.207 Timp de răspuns (mediu) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Total teste 3 Teste greșite 2 Cost total $0.746 Timp de răspuns (mediu) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Total teste 3 Teste greșite 3 Cost total $0.391 Timp de răspuns (mediu) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Total teste 3 Teste greșite 2 Cost total $0.457 Timp de răspuns (mediu) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Total teste 3 Teste greșite 3 Cost total $0.089 Timp de răspuns (mediu) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Total teste 3 Teste greșite 2 Cost total $0.128 Timp de răspuns (mediu) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Total teste 3 Teste greșite 2 Cost total $0.018 Timp de răspuns (mediu) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Total teste 3 Teste greșite 2 Cost total $0.646 Timp de răspuns (mediu) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Total teste 3 Teste greșite 2 Cost total $0.621 Timp de răspuns (mediu) 1.52s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Specific domeniului: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat