Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Total Tes 21 Tes Salah 16 Total Biaya $0.000 Waktu respons (rata-rata) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Total Tes 22 Tes Salah 18 Total Biaya $0.166 Waktu respons (rata-rata) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
Total Tes 21 Tes Salah 15 Total Biaya $0.000 Waktu respons (rata-rata) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Total Tes 18 Tes Salah 12 Total Biaya $0.000 Waktu respons (rata-rata) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Total Tes 19 Tes Salah 17 Total Biaya $0.000 Waktu respons (rata-rata) 728ms
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Total Tes 16 Tes Salah 14 Total Biaya $0.001 Waktu respons (rata-rata) 782ms
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Total Tes 22 Tes Salah 8 Total Biaya $0.676 Waktu respons (rata-rata) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Total Tes 22 Tes Salah 8 Total Biaya $0.352 Waktu respons (rata-rata) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.138 Waktu respons (rata-rata) 13.2s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Total Tes 22 Tes Salah 9 Total Biaya $0.519 Waktu respons (rata-rata) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Total Tes 22 Tes Salah 10 Total Biaya $0.454 Waktu respons (rata-rata) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Total Tes 22 Tes Salah 9 Total Biaya $0.317 Waktu respons (rata-rata) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Total Tes 22 Tes Salah 12 Total Biaya $0.093 Waktu respons (rata-rata) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Total Tes 22 Tes Salah 12 Total Biaya $0.096 Waktu respons (rata-rata) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Total Tes 22 Tes Salah 10 Total Biaya $0.738 Waktu respons (rata-rata) 44.7s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)