Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Teste corecte ↓.

Modele afișate

Eșecuri totale

1585

Modelul cel mai afectat

Gemini 3.6 Flash 1

Categorii

În categoria Specific domeniului421 În categoria Trucuri anti-AI293 În categoria Programare259 În categoria Rezolvare de puzzle-uri204 În categoria Cultură generală172 În categoria Combinat69 În categoria Inteligență generală62 În categoria Respectarea instrucțiunilor61 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

215/215

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Total teste 22 Teste greșite 13 Cost total $0.068 Timp de răspuns (mediu) 47.9s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Total teste 22 Teste greșite 13 Cost total $0.017 Timp de răspuns (mediu) 6.20s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Total teste 22 Teste greșite 13 Cost total $0.019 Timp de răspuns (mediu) 21.9s
#128	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Total teste 22 Teste greșite 13 Cost total $0.046 Timp de răspuns (mediu) 1.75s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Total teste 22 Teste greșite 13 Cost total $0.114 Timp de răspuns (mediu) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Total teste 22 Teste greșite 13 Cost total $0.000 Timp de răspuns (mediu) 137.1s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Total teste 22 Teste greșite 13 Cost total $0.026 Timp de răspuns (mediu) 55.1s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Total teste 21 Teste greșite 13 Cost total $0.052 Timp de răspuns (mediu) 2.99s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Total teste 21 Teste greșite 13 Cost total $0.000 Timp de răspuns (mediu) 11.9s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Total teste 21 Teste greșite 13 Cost total $0.021 Timp de răspuns (mediu) 2.44s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Total teste 19 Teste greșite 12 Cost total $0.547 Timp de răspuns (mediu) 28.7s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Total teste 22 Teste greșite 14 Cost total $0.090 Timp de răspuns (mediu) 4.76s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Total teste 22 Teste greșite 14 Cost total $0.548 Timp de răspuns (mediu) 6.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Total teste 22 Teste greșite 14 Cost total $0.066 Timp de răspuns (mediu) 4.40s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Total teste 22 Teste greșite 14 Cost total $0.073 Timp de răspuns (mediu) 25.3s

←

1 9 10 11 15

→

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)