Clasament al eșecurilor pentru Timp expirat

Vezi ce modele AI se lovesc cel mai des de Timp expirat, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Teste corecte ↓.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Claude Opus 4.7 1

Categorii

În categoria Specific domeniului43 În categoria Programare26 În categoria Combinat5 În categoria Rezolvare de puzzle-uri5 În categoria Inteligență generală4 În categoria Trucuri anti-AI4 În categoria Parsare și extragere de date1 În categoria Respectarea instrucțiunilor1

44/44

Rang	Model	Companie	Număr de Timp expirat	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#15	Claude Opus 4.7 medium	Anthropic	1	8.7	$1.477	18/22	7.61s
Total teste 22 Teste greșite 4 Cost total $1.477 Timp de răspuns (mediu) 7.61s
#19	Qwen3.6 Max Preview medium	Qwen	1	8.4	$1.143	16/22	67.5s
Total teste 22 Teste greșite 6 Cost total $1.143 Timp de răspuns (mediu) 67.5s
#33	Kimi K3 max	Moonshot AI	2	8.0	$3.112	16/22	122.5s
Total teste 22 Teste greșite 6 Cost total $3.112 Timp de răspuns (mediu) 122.5s
#38	GLM 5.2 medium	Z.ai	1	7.8	$0.222	15/21	23.3s
Total teste 21 Teste greșite 6 Cost total $0.222 Timp de răspuns (mediu) 23.3s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Total teste 21 Teste greșite 6 Cost total $0.307 Timp de răspuns (mediu) 33.5s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total teste 22 Teste greșite 7 Cost total $0.267 Timp de răspuns (mediu) 51.5s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Total teste 21 Teste greșite 7 Cost total $0.323 Timp de răspuns (mediu) 23.0s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
Total teste 22 Teste greșite 8 Cost total $0.951 Timp de răspuns (mediu) 22.6s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total teste 22 Teste greșite 8 Cost total $0.970 Timp de răspuns (mediu) 62.7s
#40	Claude Sonnet 4.6 medium	Anthropic	1	7.8	$2.057	14/22	25.9s
Total teste 22 Teste greșite 8 Cost total $2.057 Timp de răspuns (mediu) 25.9s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	2	7.5	$0.437	14/22	89.2s
Total teste 22 Teste greșite 8 Cost total $0.437 Timp de răspuns (mediu) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	2	7.1	$1.046	14/22	64.2s
Total teste 22 Teste greșite 8 Cost total $1.046 Timp de răspuns (mediu) 64.2s
#95	Gemma 4 26B A4B medium	Google	2	6.6	$0.089	14/22	103.8s
Total teste 22 Teste greșite 8 Cost total $0.089 Timp de răspuns (mediu) 103.8s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Total teste 22 Teste greșite 8 Cost total $0.163 Timp de răspuns (mediu) 75.4s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total teste 22 Teste greșite 9 Cost total $1.627 Timp de răspuns (mediu) 111.9s

Eșecuri Timp expirat

Filtrează modelele

Top modele după Număr de Timp expirat

Număr de Timp expirat vs Scor

Top modele după Timp de răspuns (mediu)