Clasament al eșecurilor pentru Fără răspuns

Vezi ce modele AI se lovesc cel mai des de Fără răspuns, ca să identifici riscurile de fiabilitate înainte să alegi.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Categorii

În categoria Combinat29 În categoria Programare18 În categoria Cultură generală12 În categoria Specific domeniului8 În categoria Parsare și extragere de date5 În categoria Trucuri anti-AI4 În categoria Rezolvare de puzzle-uri3 În categoria Apelare instrumente2 În categoria Respectarea instrucțiunilor2

64/64

Rang	Model	Companie	Număr de Fără răspuns	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#85	Step 3.7 Flash high	Stepfun	4	6.9	$1.207	11/22	64.7s
Total teste 22 Teste greșite 11 Cost total $1.207 Timp de răspuns (mediu) 64.7s
#96	Qwen3.6 27B medium	Qwen	3	6.5	$0.779	10/22	106.3s
Total teste 22 Teste greșite 12 Cost total $0.779 Timp de răspuns (mediu) 106.3s
#190	GLM 4.7 Flash medium	Z.ai	3	4.3	$0.166	4/22	142.6s
Total teste 22 Teste greșite 18 Cost total $0.166 Timp de răspuns (mediu) 142.6s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total teste 22 Teste greșite 5 Cost total $1.707 Timp de răspuns (mediu) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Total teste 22 Teste greșite 5 Cost total $3.478 Timp de răspuns (mediu) 17.2s
#38	GLM 5.2 medium	Z.ai	2	7.8	$0.068	15/21	23.3s
Total teste 21 Teste greșite 6 Cost total $0.068 Timp de răspuns (mediu) 23.3s
#76	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total teste 22 Teste greșite 12 Cost total $0.600 Timp de răspuns (mediu) 99.0s
#93	Gemma 4 26B A4B medium	Google	2	6.6	$0.082	14/22	103.8s
Total teste 22 Teste greșite 8 Cost total $0.082 Timp de răspuns (mediu) 103.8s
#108	Claude Sonnet 5 none	Anthropic	2	6.3	$0.548	8/22	6.04s
Total teste 22 Teste greșite 14 Cost total $0.548 Timp de răspuns (mediu) 6.04s
#115	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Total teste 22 Teste greșite 11 Cost total $0.837 Timp de răspuns (mediu) 112.5s
#130	Mimo V2 Omni medium	Xiaomi	2	5.9	$0.683	10/21	41.2s
Total teste 21 Teste greșite 11 Cost total $0.683 Timp de răspuns (mediu) 41.2s
#168	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Total teste 22 Teste greșite 17 Cost total $0.163 Timp de răspuns (mediu) 41.3s
#186	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	5/22	68.3s
Total teste 22 Teste greșite 17 Cost total $0.340 Timp de răspuns (mediu) 68.3s
#194	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	6/19	6.73s
Total teste 19 Teste greșite 13 Cost total $0.015 Timp de răspuns (mediu) 6.73s
#200	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total teste 22 Teste greșite 19 Cost total $0.036 Timp de răspuns (mediu) 82.2s

1 2 3 4 5

→

Eșecuri Fără răspuns

Filtrează modelele

Top modele după Număr de Fără răspuns

Număr de Fără răspuns vs Scor

Top modele după Timp de răspuns (mediu)