Clasament al eșecurilor pentru Timp expirat

Vezi ce modele AI se lovesc cel mai des de Timp expirat, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Număr de eșecuri ↑.

Modele afișate

Eșecuri totale

Modelul cel mai afectat

Claude Opus 4.7 1

Categorii

În categoria Specific domeniului43 În categoria Programare26 În categoria Combinat5 În categoria Rezolvare de puzzle-uri5 În categoria Inteligență generală4 În categoria Trucuri anti-AI4 În categoria Parsare și extragere de date1 În categoria Respectarea instrucțiunilor1

44/44

Rang	Model	Companie	Număr de Timp expirat	Scor	Cost total	Teste corecte	Timp de răspuns (mediu)
#15	Claude Opus 4.7 medium	Anthropic	1	8.7	$1.477	18/22	7.61s
Total teste 22 Teste greșite 4 Cost total $1.477 Timp de răspuns (mediu) 7.61s
#19	Qwen3.6 Max Preview medium	Qwen	1	8.4	$1.143	16/22	67.5s
Total teste 22 Teste greșite 6 Cost total $1.143 Timp de răspuns (mediu) 67.5s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
Total teste 22 Teste greșite 8 Cost total $0.951 Timp de răspuns (mediu) 22.6s
#26	GPT-5 Mini medium	OpenAI	1	8.1	$0.237	12/22	27.6s
Total teste 22 Teste greșite 10 Cost total $0.237 Timp de răspuns (mediu) 27.6s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total teste 22 Teste greșite 7 Cost total $0.267 Timp de răspuns (mediu) 51.5s
#38	GLM 5.2 medium	Z.ai	1	7.8	$0.222	15/21	23.3s
Total teste 21 Teste greșite 6 Cost total $0.222 Timp de răspuns (mediu) 23.3s
#40	Claude Sonnet 4.6 medium	Anthropic	1	7.8	$2.057	14/22	25.9s
Total teste 22 Teste greșite 8 Cost total $2.057 Timp de răspuns (mediu) 25.9s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Total teste 21 Teste greșite 6 Cost total $0.307 Timp de răspuns (mediu) 33.5s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total teste 22 Teste greșite 12 Cost total $0.200 Timp de răspuns (mediu) 79.1s
#49	GLM 5 Turbo medium	Z.ai	1	7.6	$0.323	14/21	23.0s
Total teste 21 Teste greșite 7 Cost total $0.323 Timp de răspuns (mediu) 23.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total teste 22 Teste greșite 9 Cost total $1.627 Timp de răspuns (mediu) 111.9s
#60	LongCat 2.0 medium	Meituan	1	7.4	$0.478	12/22	136.6s
Total teste 22 Teste greșite 10 Cost total $0.478 Timp de răspuns (mediu) 136.6s
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	1	7.2	$0.317	13/22	46.4s
Total teste 22 Teste greșite 9 Cost total $0.317 Timp de răspuns (mediu) 46.4s
#91	LongCat 2.0 low	Meituan	1	6.7	$0.391	10/22	100.3s
Total teste 22 Teste greșite 12 Cost total $0.391 Timp de răspuns (mediu) 100.3s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Total teste 21 Teste greșite 9 Cost total $0.333 Timp de răspuns (mediu) 22.2s

Eșecuri Timp expirat

Filtrează modelele

Top modele după Număr de Timp expirat

Număr de Timp expirat vs Scor

Top modele după Timp de răspuns (mediu)