Peringkat kegagalan Format tambahan

Lihat model AI mana yang paling sering mengalami Format tambahan, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Claude Opus 4.6 5

Kategori

Dalam kategori Trik anti-AI20 Dalam kategori Pemrograman18 Dalam kategori Spesifik domain17 Dalam kategori Pemecahan teka-teki7 Dalam kategori Parsing dan ekstraksi data6 Dalam kategori Kepatuhan instruksi3 Dalam kategori Gabungan1

41/41

Peringkat	Model	Perusahaan	Jumlah Format tambahan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#43	Claude Opus 4.6 medium	Anthropic	5	7.7	$3.059	13/22	34.3s
Total Tes 22 Tes Salah 9 Total Biaya $3.059 Waktu respons (rata-rata) 34.3s
#62	Claude Sonnet 4.6 none	Anthropic	4	7.3	$0.661	12/22	8.12s
Total Tes 22 Tes Salah 10 Total Biaya $0.661 Waktu respons (rata-rata) 8.12s
#108	Claude Sonnet 5 none	Anthropic	4	6.3	$0.548	8/22	6.04s
Total Tes 22 Tes Salah 14 Total Biaya $0.548 Waktu respons (rata-rata) 6.04s
#154	KAT-Coder-Air V2.5 low	Kwaipilot	4	5.4	$0.041	7/22	10.1s
Total Tes 22 Tes Salah 15 Total Biaya $0.041 Waktu respons (rata-rata) 10.1s
#40	Claude Sonnet 4.6 medium	Anthropic	3	7.8	$2.057	14/22	25.9s
Total Tes 22 Tes Salah 8 Total Biaya $2.057 Waktu respons (rata-rata) 25.9s
#48	Grok Build 0.1 medium	X AI	3	7.6	$1.097	14/22	52.1s
Total Tes 22 Tes Salah 8 Total Biaya $1.097 Waktu respons (rata-rata) 52.1s
#65	Claude Opus 4.8 none	Anthropic	3	7.3	$1.166	13/22	4.91s
Total Tes 22 Tes Salah 9 Total Biaya $1.166 Waktu respons (rata-rata) 4.91s
#83	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Total Tes 22 Tes Salah 10 Total Biaya $0.187 Waktu respons (rata-rata) 33.9s
#140	KAT-Coder-Air V2.5 high	Kwaipilot	3	5.6	$0.077	7/22	15.9s
Total Tes 22 Tes Salah 15 Total Biaya $0.077 Waktu respons (rata-rata) 15.9s
#178	KAT-Coder-Air V2.5 none	Kwaipilot	3	4.8	$0.067	5/22	12.2s
Total Tes 22 Tes Salah 17 Total Biaya $0.067 Waktu respons (rata-rata) 12.2s
#98	MiMo-V2.5 medium	Xiaomi	2	6.5	$0.082	12/22	32.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.082 Waktu respons (rata-rata) 32.2s
#133	North Mini Code medium	Cohere	2	5.9	$0.000	9/22	137.1s
Total Tes 22 Tes Salah 13 Total Biaya $0.000 Waktu respons (rata-rata) 137.1s
#146	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Total Tes 22 Tes Salah 17 Total Biaya $0.044 Waktu respons (rata-rata) 36.8s
#167	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Total Tes 22 Tes Salah 18 Total Biaya $0.000 Waktu respons (rata-rata) 29.9s
#169	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Total Tes 22 Tes Salah 16 Total Biaya $0.054 Waktu respons (rata-rata) 18.3s

Kegagalan Format tambahan

Filter model

Model teratas menurut Jumlah Format tambahan

Jumlah Format tambahan vs Skor

Model teratas menurut Waktu respons (rata-rata)