Extra formatting Failure Ranking

See which AI models run into Extra formatting most often, so you can spot reliability risks before choosing one.

Models Shown

Total Failures

Most Affected Model

Categories

In category Anti-AI Tricks20 In category Coding18 In category Domain specific17 In category Puzzle Solving8 In category Data parsing and extraction6 In category Instructions following3 In category Combined1

42/42

Rank	Model	Company	Extra formatting Count	Score	Total Cost	Tests Correct	Response Time (avg)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Total Tests 18 Wrong Tests 10 Total Cost $5.599 Response Time (avg) 9.69s
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Total Tests 22 Wrong Tests 6 Total Cost $3.112 Response Time (avg) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Total Tests 22 Wrong Tests 6 Total Cost $2.077 Response Time (avg) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Total Tests 22 Wrong Tests 12 Total Cost $0.200 Response Time (avg) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Total Tests 22 Wrong Tests 10 Total Cost $0.286 Response Time (avg) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Total Tests 22 Wrong Tests 9 Total Cost $1.627 Response Time (avg) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Total Tests 22 Wrong Tests 9 Total Cost $0.779 Response Time (avg) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Total Tests 22 Wrong Tests 9 Total Cost $0.535 Response Time (avg) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Total Tests 22 Wrong Tests 10 Total Cost $0.777 Response Time (avg) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Total Tests 22 Wrong Tests 12 Total Cost $0.096 Response Time (avg) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Total Tests 21 Wrong Tests 9 Total Cost $0.333 Response Time (avg) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Total Tests 22 Wrong Tests 15 Total Cost $0.044 Response Time (avg) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Total Tests 21 Wrong Tests 9 Total Cost $0.043 Response Time (avg) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Total Tests 21 Wrong Tests 11 Total Cost $0.683 Response Time (avg) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Total Tests 21 Wrong Tests 14 Total Cost $0.000 Response Time (avg) 9.88s

Extra formatting Failures

Filter models

Top Models by Extra formatting Count

Extra formatting Count vs Score

Top Models by Response Time (avg)