Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Total Tes 22 Tes Salah 9 Total Biaya $0.117 Waktu respons (rata-rata) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Total Tes 21 Tes Salah 10 Total Biaya $0.457 Waktu respons (rata-rata) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Total Tes 22 Tes Salah 9 Total Biaya $0.646 Waktu respons (rata-rata) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Total Tes 22 Tes Salah 10 Total Biaya $0.052 Waktu respons (rata-rata) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Total Tes 22 Tes Salah 14 Total Biaya $0.548 Waktu respons (rata-rata) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Total Tes 22 Tes Salah 15 Total Biaya $0.041 Waktu respons (rata-rata) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Total Tes 22 Tes Salah 16 Total Biaya $0.054 Waktu respons (rata-rata) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Total Tes 22 Tes Salah 17 Total Biaya $0.340 Waktu respons (rata-rata) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Total Tes 19 Tes Salah 12 Total Biaya $0.547 Waktu respons (rata-rata) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Total Tes 19 Tes Salah 15 Total Biaya $0.000 Waktu respons (rata-rata) 17.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Total Tes 22 Tes Salah 6 Total Biaya $0.935 Waktu respons (rata-rata) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Total Tes 22 Tes Salah 6 Total Biaya $1.928 Waktu respons (rata-rata) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Total Tes 22 Tes Salah 9 Total Biaya $0.647 Waktu respons (rata-rata) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Total Tes 22 Tes Salah 7 Total Biaya $0.643 Waktu respons (rata-rata) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Total Tes 22 Tes Salah 8 Total Biaya $0.584 Waktu respons (rata-rata) 9.48s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)