Timed out Failure Ranking

See which AI models run into Timed out most often, so you can spot reliability risks before choosing one.

Models Shown

Total Failures

Most Affected Model

Categories

In category Domain specific39 In category Coding25 In category Combined5 In category Puzzle Solving5 In category Anti-AI Tricks4 In category General Intelligence4 In category Data parsing and extraction1 In category Instructions following1

41/41

Rank	Model	Company	Timed out Count	Score	Total Cost	Tests Correct	Response Time (avg)
#200	Qwen3.5-9B medium	Qwen	12	3.8	$0.036	3/22	82.2s
Total Tests 22 Wrong Tests 19 Total Cost $0.036 Response Time (avg) 82.2s
#79	Seed-2.0-Mini medium	Bytedance Seed	5	7.0	$0.101	11/22	92.5s
Total Tests 22 Wrong Tests 11 Total Cost $0.101 Response Time (avg) 92.5s
#115	Qwen3.5-35B-A3B medium	Qwen	5	6.2	$0.837	11/22	112.5s
Total Tests 22 Wrong Tests 11 Total Cost $0.837 Response Time (avg) 112.5s
#186	MiniMax M2.5 medium	Minimax	4	4.6	$0.340	5/22	68.3s
Total Tests 22 Wrong Tests 17 Total Cost $0.340 Response Time (avg) 68.3s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.296	14/22	62.7s
Total Tests 22 Wrong Tests 8 Total Cost $0.296 Response Time (avg) 62.7s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Total Tests 22 Wrong Tests 10 Total Cost $0.286 Response Time (avg) 75.0s
#52	Kimi K2.7 Code medium	Moonshot AI	3	7.5	$0.871	12/22	84.2s
Total Tests 22 Wrong Tests 10 Total Cost $0.871 Response Time (avg) 84.2s
#67	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.222	12/22	110.0s
Total Tests 22 Wrong Tests 10 Total Cost $1.222 Response Time (avg) 110.0s
#110	Qwen3.5-Flash medium	Qwen	3	6.2	$0.139	12/22	84.8s
Total Tests 22 Wrong Tests 10 Total Cost $0.139 Response Time (avg) 84.8s
#33	Kimi K3 max	Moonshot AI	2	8.0	$3.112	16/22	122.5s
Total Tests 22 Wrong Tests 6 Total Cost $3.112 Response Time (avg) 122.5s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	2	7.5	$0.437	14/22	89.2s
Total Tests 22 Wrong Tests 8 Total Cost $0.437 Response Time (avg) 89.2s
#71	Qwen3.5-122B-A10B medium	Qwen	2	7.1	$1.046	14/22	64.2s
Total Tests 22 Wrong Tests 8 Total Cost $1.046 Response Time (avg) 64.2s
#73	GLM 5.1 medium	Z.ai	2	7.1	$0.535	13/22	46.8s
Total Tests 22 Wrong Tests 9 Total Cost $0.535 Response Time (avg) 46.8s
#75	DeepSeek V3.2 medium	DeepSeek	2	7.0	$0.078	11/22	68.6s
Total Tests 22 Wrong Tests 11 Total Cost $0.078 Response Time (avg) 68.6s
#76	Kimi K2.5 medium	Moonshot AI	2	7.0	$0.600	10/22	99.0s
Total Tests 22 Wrong Tests 12 Total Cost $0.600 Response Time (avg) 99.0s

Timed out Failures

Filter models

Top Models by Timed out Count

Timed out Count vs Score

Top Models by Response Time (avg)