Clasament Specific domeniului x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

421

Modelul cel mai afectat

Muse Spark 1.1 3

Motive de eșec

Răspuns greșit421 Timp expirat43 Formatare suplimentară17 Fără răspuns8 Eroare API7 Nu a urmat instrucțiunile1

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

202/202

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Total teste 3 Teste greșite 3 Cost total $0.025 Timp de răspuns (mediu) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Total teste 3 Teste greșite 3 Cost total $0.021 Timp de răspuns (mediu) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
Total teste 3 Teste greșite 3 Cost total $0.010 Timp de răspuns (mediu) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
Total teste 3 Teste greșite 3 Cost total $0.008 Timp de răspuns (mediu) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
Total teste 3 Teste greșite 3 Cost total $0.002 Timp de răspuns (mediu) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
Total teste 3 Teste greșite 3 Cost total $0.041 Timp de răspuns (mediu) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
Total teste 3 Teste greșite 3 Cost total $0.067 Timp de răspuns (mediu) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
Total teste 3 Teste greșite 3 Cost total $0.087 Timp de răspuns (mediu) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
Total teste 3 Teste greșite 3 Cost total $0.009 Timp de răspuns (mediu) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
Total teste 3 Teste greșite 3 Cost total $0.000 Timp de răspuns (mediu) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Total teste 3 Teste greșite 3 Cost total $0.007 Timp de răspuns (mediu) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Total teste 3 Teste greșite 3 Cost total $0.010 Timp de răspuns (mediu) 35.0s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Specific domeniului: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat