Clasament Specific domeniului x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

421

Modelul cel mai afectat

Muse Spark 1.1 3

Motive de eșec

Răspuns greșit421 Timp expirat43 Formatare suplimentară17 Fără răspuns8 Eroare API7 Nu a urmat instrucțiunile1

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

202/202

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Total teste 3 Teste greșite 2 Cost total $0.584 Timp de răspuns (mediu) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Total teste 3 Teste greșite 2 Cost total $0.604 Timp de răspuns (mediu) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Total teste 3 Teste greșite 2 Cost total $0.391 Timp de răspuns (mediu) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Total teste 3 Teste greșite 2 Cost total $1.055 Timp de răspuns (mediu) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Total teste 3 Teste greșite 2 Cost total $0.234 Timp de răspuns (mediu) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Total teste 3 Teste greșite 2 Cost total $0.676 Timp de răspuns (mediu) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Total teste 3 Teste greșite 2 Cost total $2.077 Timp de răspuns (mediu) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Total teste 3 Teste greșite 3 Cost total $0.307 Timp de răspuns (mediu) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Total teste 3 Teste greșite 3 Cost total $0.200 Timp de răspuns (mediu) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Total teste 3 Teste greșite 3 Cost total $0.323 Timp de răspuns (mediu) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Total teste 3 Teste greșite 2 Cost total $0.352 Timp de răspuns (mediu) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Total teste 3 Teste greșite 2 Cost total $0.138 Timp de răspuns (mediu) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Total teste 3 Teste greșite 2 Cost total $0.519 Timp de răspuns (mediu) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Total teste 3 Teste greșite 3 Cost total $0.478 Timp de răspuns (mediu) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Total teste 3 Teste greșite 2 Cost total $0.177 Timp de răspuns (mediu) 8.05s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Specific domeniului: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat