Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

1558

Modelul cel mai afectat

Gemini 3 Flash Preview 1

Categorii

În categoria Specific domeniului412 În categoria Trucuri anti-AI293 În categoria Programare252 În categoria Rezolvare de puzzle-uri201 În categoria Cultură generală168 În categoria Combinat68 În categoria Respectarea instrucțiunilor61 În categoria Inteligență generală59 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

209/209

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Total teste 21 Teste greșite 7 Cost total $0.385 Timp de răspuns (mediu) 9.05s
#135	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Total teste 21 Teste greșite 10 Cost total $0.048 Timp de răspuns (mediu) 56.6s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Total teste 22 Teste greșite 4 Cost total $0.971 Timp de răspuns (mediu) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Total teste 22 Teste greșite 4 Cost total $1.316 Timp de răspuns (mediu) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Total teste 22 Teste greșite 4 Cost total $1.234 Timp de răspuns (mediu) 11.7s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total teste 22 Teste greșite 4 Cost total $4.137 Timp de răspuns (mediu) 38.4s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Total teste 22 Teste greșite 6 Cost total $0.920 Timp de răspuns (mediu) 17.0s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total teste 22 Teste greșite 7 Cost total $1.357 Timp de răspuns (mediu) 25.0s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total teste 22 Teste greșite 6 Cost total $0.922 Timp de răspuns (mediu) 12.5s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total teste 22 Teste greșite 10 Cost total $1.694 Timp de răspuns (mediu) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total teste 22 Teste greșite 7 Cost total $1.006 Timp de răspuns (mediu) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Total teste 22 Teste greșite 7 Cost total $0.391 Timp de răspuns (mediu) 16.2s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total teste 22 Teste greșite 8 Cost total $2.057 Timp de răspuns (mediu) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Total teste 22 Teste greșite 6 Cost total $2.077 Timp de răspuns (mediu) 12.7s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Total teste 21 Teste greșite 7 Cost total $0.323 Timp de răspuns (mediu) 23.0s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)