Peringkat model Kepatuhan instruksi

Lihat model AI mana yang paling baik di Kepatuhan instruksi, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Rata-rata Skor Kepatuhan instruksi

8.5

Model terbaik

Gemini 3 Flash Preview 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah61 Dengan alasan kegagalan Tidak mengikuti instruksi18 Dengan alasan kegagalan Format tambahan3 Dengan alasan kegagalan Tidak ada jawaban2 Dengan alasan kegagalan Kedaluwarsa1 Dengan alasan kegagalan Kesalahan API1

210/210

Peringkat	Model	Perusahaan	Skor Kepatuhan instruksi	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#34	GPT-5.6 Terra high	OpenAI	10.0	8.0	$1.055	2/2	2.14s
Total Tes 2 Tes Salah 0 Total Biaya $1.055 Waktu respons (rata-rata) 2.14s
#35	Seed-2.0-Lite medium	Bytedance Seed	10.0	7.9	$0.234	2/2	7.26s
Total Tes 2 Tes Salah 0 Total Biaya $0.234 Waktu respons (rata-rata) 7.26s
#36	Qwen3.7 Plus medium	Qwen	10.0	7.9	$0.267	2/2	16.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.267 Waktu respons (rata-rata) 16.1s
#37	Qwen3.6 Plus medium	Qwen	10.0	7.8	$0.405	2/2	7.54s
Total Tes 2 Tes Salah 0 Total Biaya $0.405 Waktu respons (rata-rata) 7.54s
#38	GLM 5.2 medium	Z.ai	9.9	7.8	$0.222	2/2	7.90s
Total Tes 2 Tes Salah 0 Total Biaya $0.222 Waktu respons (rata-rata) 7.90s
#39	GPT-5.6 Terra medium	OpenAI	10.0	7.8	$0.676	2/2	1.43s
Total Tes 2 Tes Salah 0 Total Biaya $0.676 Waktu respons (rata-rata) 1.43s
#40	Claude Sonnet 4.6 medium	Anthropic	10.0	7.8	$2.057	2/2	2.61s
Total Tes 2 Tes Salah 0 Total Biaya $2.057 Waktu respons (rata-rata) 2.61s
#41	Claude Opus 4.8 low	Anthropic	9.8	7.8	$2.077	2/2	2.78s
Total Tes 2 Tes Salah 0 Total Biaya $2.077 Waktu respons (rata-rata) 2.78s
#42	GLM 5 medium	Z.ai	10.0	7.7	$0.307	2/2	7.25s
Total Tes 2 Tes Salah 0 Total Biaya $0.307 Waktu respons (rata-rata) 7.25s
#43	Claude Opus 4.6 medium	Anthropic	10.0	7.7	$3.059	2/2	2.43s
Total Tes 2 Tes Salah 0 Total Biaya $3.059 Waktu respons (rata-rata) 2.43s
#44	GPT-5.6 Luna high	OpenAI	9.9	7.7	$1.017	2/2	1.79s
Total Tes 2 Tes Salah 0 Total Biaya $1.017 Waktu respons (rata-rata) 1.79s
#45	DeepSeek V4 Flash high	DeepSeek	10.0	7.7	$0.042	2/2	15.4s
Total Tes 2 Tes Salah 0 Total Biaya $0.042 Waktu respons (rata-rata) 15.4s
#47	MiniMax M3 medium	Minimax	9.8	7.6	$0.286	2/2	6.14s
Total Tes 2 Tes Salah 0 Total Biaya $0.286 Waktu respons (rata-rata) 6.14s
#48	Grok Build 0.1 medium	X AI	9.8	7.6	$1.097	2/2	12.4s
Total Tes 2 Tes Salah 0 Total Biaya $1.097 Waktu respons (rata-rata) 12.4s
#49	GLM 5 Turbo medium	Z.ai	10.0	7.6	$0.323	2/2	5.38s
Total Tes 2 Tes Salah 0 Total Biaya $0.323 Waktu respons (rata-rata) 5.38s

Peringkat Kepatuhan instruksi

Filter model

Model teratas menurut Skor Kepatuhan instruksi

Skor Kepatuhan instruksi vs total biaya

Model teratas menurut Waktu respons (rata-rata)