Clasament al eșecurilor pentru Timp expirat

Vezi ce modele AI se lovesc cel mai des de Timp expirat, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Teste corecte ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Qwen3.5-9B 12

Categorii

În categoria Specific domeniului43 În categoria Programare26 În categoria Combinat5 În categoria Rezolvare de puzzle-uri5 În categoria Inteligență generală4 În categoria Trucuri anti-AI4 În categoria Parsare și extragere de date1 În categoria Respectarea instrucțiunilor1

44/44

Rang	Model	Companie	Număr de Timp expirat	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#204	Qwen3.5-9B medium	Qwen	12	3.8	$0.036	3/22	82.2s
Total teste 22 Teste greșite 19 Cost total $0.036 Timp de răspuns (mediu) 82.2s
#187	Qwen3 Coder Next medium	Qwen	1	4.7	$0.032	4/22	9.61s
Total teste 22 Teste greșite 18 Cost total $0.032 Timp de răspuns (mediu) 9.61s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Total teste 22 Teste greșite 18 Cost total $0.166 Timp de răspuns (mediu) 142.6s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Total teste 22 Teste greșite 17 Cost total $0.008 Timp de răspuns (mediu) 1.55s
#172	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Total teste 22 Teste greșite 17 Cost total $0.163 Timp de răspuns (mediu) 41.3s
#190	MiniMax M2.5 medium	Minimax	4	4.6	$0.340	5/22	68.3s
Total teste 22 Teste greșite 17 Cost total $0.340 Timp de răspuns (mediu) 68.3s
#140	Nemotron 3 Super medium	NVIDIA	1	5.7	$0.050	8/22	52.0s
Total teste 22 Teste greșite 14 Cost total $0.050 Timp de răspuns (mediu) 52.0s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Total teste 22 Teste greșite 14 Cost total $0.015 Timp de răspuns (mediu) 7.64s
#97	LongCat 2.0 high	Meituan	3	6.6	$0.469	9/22	148.7s
Total teste 22 Teste greșite 13 Cost total $0.469 Timp de răspuns (mediu) 148.7s
#128	GPT-5 Nano medium	OpenAI	1	6.1	$0.114	9/22	54.9s
Total teste 22 Teste greșite 13 Cost total $0.114 Timp de răspuns (mediu) 54.9s
#184	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
Total teste 18 Teste greșite 10 Cost total $0.000 Timp de răspuns (mediu) 10.3s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total teste 22 Teste greșite 12 Cost total $0.200 Timp de răspuns (mediu) 79.1s
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total teste 22 Teste greșite 12 Cost total $0.600 Timp de răspuns (mediu) 99.0s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Total teste 22 Teste greșite 12 Cost total $0.391 Timp de răspuns (mediu) 100.3s
#185	Grok 4.1 Fast medium	X AI	1	4.7	$0.069	9/19	23.8s
Total teste 19 Teste greșite 10 Cost total $0.069 Timp de răspuns (mediu) 23.8s

Eșecuri Timp expirat

Filtrează modelele

Top modele după Număr de Timp expirat

Număr de Timp expirat vs Scor

Top modele după Timp de răspuns (mediu)