Timed out Failure Ranking

See which AI models run into Timed out most often, so you can spot reliability risks before choosing one.

Models Shown

Total Failures

Most Affected Model

Categories

In category Domain specific43 In category Coding26 In category Combined5 In category Puzzle Solving5 In category Anti-AI Tricks4 In category General Intelligence4 In category Data parsing and extraction1 In category Instructions following1

44/44

Rank	Model	Company	Timed out Count	Score	Total Cost	Tests Correct	Response Time (avg)
#77	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total Tests 22 Wrong Tests 12 Total Cost $0.600 Response Time (avg) 99.0s
#95	Gemma 4 26B A4B medium	Google	2	6.6	$0.089	14/22	103.8s
Total Tests 22 Wrong Tests 8 Total Cost $0.089 Response Time (avg) 103.8s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Total Tests 22 Wrong Tests 8 Total Cost $0.163 Response Time (avg) 75.4s
#172	MiniMax M2.7 medium	Minimax	2	5.0	$0.163	5/22	41.3s
Total Tests 22 Wrong Tests 17 Total Cost $0.163 Response Time (avg) 41.3s
#184	Hunter Alpha medium	OpenRouter	2	4.7	$0.000	8/18	10.3s
Total Tests 18 Wrong Tests 10 Total Cost $0.000 Response Time (avg) 10.3s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Total Tests 22 Wrong Tests 18 Total Cost $0.166 Response Time (avg) 142.6s
#15	Claude Opus 4.7 medium	Anthropic	1	8.7	$1.477	18/22	7.61s
Total Tests 22 Wrong Tests 4 Total Cost $1.477 Response Time (avg) 7.61s
#19	Qwen3.6 Max Preview medium	Qwen	1	8.4	$1.143	16/22	67.5s
Total Tests 22 Wrong Tests 6 Total Cost $1.143 Response Time (avg) 67.5s
#21	GPT-5.2 medium	OpenAI	1	8.4	$0.951	14/22	22.6s
Total Tests 22 Wrong Tests 8 Total Cost $0.951 Response Time (avg) 22.6s
#26	GPT-5 Mini medium	OpenAI	1	8.1	$0.237	12/22	27.6s
Total Tests 22 Wrong Tests 10 Total Cost $0.237 Response Time (avg) 27.6s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Total Tests 22 Wrong Tests 7 Total Cost $0.267 Response Time (avg) 51.5s
#38	GLM 5.2 medium	Z.ai	1	7.8	$0.222	15/21	23.3s
Total Tests 21 Wrong Tests 6 Total Cost $0.222 Response Time (avg) 23.3s
#40	Claude Sonnet 4.6 medium	Anthropic	1	7.8	$2.057	14/22	25.9s
Total Tests 22 Wrong Tests 8 Total Cost $2.057 Response Time (avg) 25.9s
#42	GLM 5 medium	Z.ai	1	7.7	$0.307	15/21	33.5s
Total Tests 21 Wrong Tests 6 Total Cost $0.307 Response Time (avg) 33.5s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total Tests 22 Wrong Tests 12 Total Cost $0.200 Response Time (avg) 79.1s

Timed out Failures

Filter models

Top Models by Timed out Count

Timed out Count vs Score

Top Models by Response Time (avg)