Clasament al eșecurilor pentru Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Timp de răspuns (mediu) ↑.

Modele afișate

Eșecuri totale

1585

Modelul cel mai afectat

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Categorii

În categoria Specific domeniului421 În categoria Trucuri anti-AI293 În categoria Programare259 În categoria Rezolvare de puzzle-uri204 În categoria Cultură generală172 În categoria Combinat69 În categoria Inteligență generală62 În categoria Respectarea instrucțiunilor61 În categoria Parsare și extragere de date41 În categoria Apelare instrumente3

215/215

Rang	Model	Companie	Număr de Răspuns greșit	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#139	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Total teste 21 Teste greșite 7 Cost total $0.385 Timp de răspuns (mediu) 9.05s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Total teste 22 Teste greșite 17 Cost total $0.025 Timp de răspuns (mediu) 9.12s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Total teste 22 Teste greșite 16 Cost total $0.016 Timp de răspuns (mediu) 9.15s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Total teste 22 Teste greșite 10 Cost total $0.128 Timp de răspuns (mediu) 9.34s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Total teste 22 Teste greșite 8 Cost total $0.584 Timp de răspuns (mediu) 9.48s
#193	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Total teste 22 Teste greșite 18 Cost total $0.032 Timp de răspuns (mediu) 9.61s
#187	Grok 4.20 Multi Agent Beta medium	X AI	4	4.8	$5.599	8/18	9.69s
Total teste 18 Teste greșite 10 Cost total $5.599 Timp de răspuns (mediu) 9.69s
#137	Grok 4.20 Beta medium	X AI	3	6.0	$0.750	14/18	9.75s
Total teste 18 Teste greșite 4 Cost total $0.750 Timp de răspuns (mediu) 9.75s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Total teste 22 Teste greșite 12 Cost total $0.073 Timp de răspuns (mediu) 9.85s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Total teste 21 Teste greșite 14 Cost total $0.000 Timp de răspuns (mediu) 9.88s
#83	Gemini 3.5 Flash none	Google	3	7.0	$1.079	15/22	9.93s
Total teste 22 Teste greșite 7 Cost total $1.079 Timp de răspuns (mediu) 9.93s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Total teste 22 Teste greșite 15 Cost total $0.041 Timp de răspuns (mediu) 10.1s
#1	Gemini 3.6 Flash medium	Google	1	9.9	$0.831	21/22	10.1s
Total teste 22 Teste greșite 1 Cost total $0.831 Timp de răspuns (mediu) 10.1s
#9	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Total teste 22 Teste greșite 3 Cost total $1.253 Timp de răspuns (mediu) 10.1s
#190	Hunter Alpha medium	OpenRouter	4	4.7	$0.000	8/18	10.3s
Total teste 18 Teste greșite 10 Cost total $0.000 Timp de răspuns (mediu) 10.3s

Eșecuri Răspuns greșit

Filtrează modelele

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)