Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Teste corecte ↑.

Modele afișate

Eșecuri totale

1585

Modelul cel mai afectat

Granite 4.1 8B 13

Categorii

În categoria Specific domeniului421 În categoria Trucuri anti-AI293 În categoria Programare259 În categoria Rezolvare de puzzle-uri204 În categoria Cultură generală172 În categoria Combinat69 În categoria Inteligență generală62 În categoria Respectarea instrucțiunilor61 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

215/215

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Total teste 22 Teste greșite 10 Cost total $0.052 Timp de răspuns (mediu) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Total teste 22 Teste greșite 10 Cost total $0.139 Timp de răspuns (mediu) 84.8s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Total teste 18 Teste greșite 8 Cost total $2.044 Timp de răspuns (mediu) 62.0s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Total teste 21 Teste greșite 9 Cost total $0.333 Timp de răspuns (mediu) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Total teste 21 Teste greșite 9 Cost total $0.043 Timp de răspuns (mediu) 20.1s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Total teste 22 Teste greșite 9 Cost total $0.647 Timp de răspuns (mediu) 11.5s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Total teste 22 Teste greșite 9 Cost total $3.059 Timp de răspuns (mediu) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Total teste 22 Teste greșite 9 Cost total $0.041 Timp de răspuns (mediu) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Total teste 22 Teste greșite 9 Cost total $0.774 Timp de răspuns (mediu) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Total teste 22 Teste greșite 9 Cost total $0.571 Timp de răspuns (mediu) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Total teste 22 Teste greșite 9 Cost total $0.519 Timp de răspuns (mediu) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Total teste 22 Teste greșite 9 Cost total $1.627 Timp de răspuns (mediu) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Total teste 22 Teste greșite 9 Cost total $0.115 Timp de răspuns (mediu) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Total teste 22 Teste greșite 9 Cost total $0.117 Timp de răspuns (mediu) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Total teste 22 Teste greșite 9 Cost total $1.166 Timp de răspuns (mediu) 4.91s

←

1 9 10 11 15

→

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)