Clasament Specific domeniului x Răspuns greșit

Vezi ce modele AI au cele mai mari șanse să întâmpine Răspuns greșit la Specific domeniului, ca să găsești mai repede punctele slabe.

Modele afișate

Eșecuri totale

421

Modelul cel mai afectat

Muse Spark 1.1 3

Motive de eșec

Răspuns greșit421 Timp expirat43 Formatare suplimentară17 Fără răspuns8 Eroare API7 Nu a urmat instrucțiunile1

Categorii

Specific domeniului421 Trucuri anti-AI293 Programare259 Rezolvare de puzzle-uri204 Cultură generală172 Combinat69 Inteligență generală62 Respectarea instrucțiunilor61 Parsare și extragere de date41 Apelare instrumente3

202/202

Rang	Model	Companie	Număr de Răspuns greșit	Scor de categorie	Cost total	Teste corecte	Timp de răspuns (mediu)
#112	Gemini 3.1 Flash Lite Preview none	Google	2	5.3	$0.052	1/3	942ms
Total teste 3 Teste greșite 2 Cost total $0.052 Timp de răspuns (mediu) 942ms
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	2	5.3	$0.073	1/3	1.17s
Total teste 3 Teste greșite 2 Cost total $0.073 Timp de răspuns (mediu) 1.17s
#118	Claude Sonnet 5 none	Anthropic	2	5.3	$0.548	1/3	3.28s
Total teste 3 Teste greșite 2 Cost total $0.548 Timp de răspuns (mediu) 3.28s
#119	MiMo-V2-Flash medium	Xiaomi	2	5.9	$0.043	1/3	96.0s
Total teste 3 Teste greșite 2 Cost total $0.043 Timp de răspuns (mediu) 96.0s
#124	Gemini 2.5 Flash none	Google	2	5.9	$0.017	1/3	495ms
Total teste 3 Teste greșite 2 Cost total $0.017 Timp de răspuns (mediu) 495ms
#129	Inkling low	Thinkingmachines	2	5.3	$0.187	1/3	1.99s
Total teste 3 Teste greșite 2 Cost total $0.187 Timp de răspuns (mediu) 1.99s
#130	Qwen3.6 Flash none	Qwen	2	5.3	$0.062	1/3	1.11s
Total teste 3 Teste greșite 2 Cost total $0.062 Timp de răspuns (mediu) 1.11s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	2	5.3	$0.122	1/3	4.43s
Total teste 3 Teste greșite 2 Cost total $0.122 Timp de răspuns (mediu) 4.43s
#135	Nemotron 3 Ultra none	NVIDIA	2	5.3	$0.095	1/3	698ms
Total teste 3 Teste greșite 2 Cost total $0.095 Timp de răspuns (mediu) 698ms
#136	Step 3.5 Flash medium	Stepfun	2	5.3	$0.108	1/3	170.5s
Total teste 3 Teste greșite 2 Cost total $0.108 Timp de răspuns (mediu) 170.5s
#137	Grok 4.20 Beta medium	X AI	2	5.3	$0.750	1/3	21.3s
Total teste 3 Teste greșite 2 Cost total $0.750 Timp de răspuns (mediu) 21.3s
#138	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	757ms
Total teste 3 Teste greșite 2 Cost total $0.349 Timp de răspuns (mediu) 757ms
#139	Gemini 3 PRO Preview medium	Google	2	5.3	$0.385	1/3	7.01s
Total teste 3 Teste greșite 2 Cost total $0.385 Timp de răspuns (mediu) 7.01s
#141	Hy3 preview high	Tencent	2	5.3	$0.048	1/3	109.0s
Total teste 3 Teste greșite 2 Cost total $0.048 Timp de răspuns (mediu) 109.0s
#143	North Mini Code medium	Cohere	2	5.3	$0.000	1/3	71.4s
Total teste 3 Teste greșite 2 Cost total $0.000 Timp de răspuns (mediu) 71.4s

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat

Specific domeniului: Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)

Top modele după Cost irosit estimat