Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Total Tes 21 Tes Salah 11 Total Biaya $0.683 Waktu respons (rata-rata) 41.2s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Total Tes 22 Tes Salah 14 Total Biaya $0.055 Waktu respons (rata-rata) 52.0s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Total Tes 22 Tes Salah 13 Total Biaya $0.026 Waktu respons (rata-rata) 55.1s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Total Tes 22 Tes Salah 4 Total Biaya $0.971 Waktu respons (rata-rata) 8.79s
#7	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Total Tes 22 Tes Salah 4 Total Biaya $1.316 Waktu respons (rata-rata) 11.4s
#8	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Total Tes 22 Tes Salah 4 Total Biaya $1.234 Waktu respons (rata-rata) 11.7s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Total Tes 22 Tes Salah 4 Total Biaya $4.137 Waktu respons (rata-rata) 38.4s
#16	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Total Tes 22 Tes Salah 6 Total Biaya $0.920 Waktu respons (rata-rata) 17.0s
#19	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Total Tes 22 Tes Salah 7 Total Biaya $1.357 Waktu respons (rata-rata) 25.0s
#26	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Total Tes 22 Tes Salah 6 Total Biaya $0.922 Waktu respons (rata-rata) 12.5s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Total Tes 22 Tes Salah 10 Total Biaya $1.694 Waktu respons (rata-rata) 31.5s
#32	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total Tes 22 Tes Salah 7 Total Biaya $1.006 Waktu respons (rata-rata) 64.2s
#36	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Total Tes 22 Tes Salah 7 Total Biaya $0.391 Waktu respons (rata-rata) 16.2s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Total Tes 22 Tes Salah 8 Total Biaya $2.057 Waktu respons (rata-rata) 25.9s
#45	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Total Tes 22 Tes Salah 6 Total Biaya $2.077 Waktu respons (rata-rata) 12.7s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)