Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih. Urutkan berdasarkan: Waktu respons (rata-rata) ↓.

Model yang ditampilkan

Total kegagalan

1558

Model yang paling terdampak

Step 3.5 Flash 4

Kategori

Dalam kategori Spesifik domain412 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman252 Dalam kategori Pemecahan teka-teki201 Dalam kategori Pengetahuan umum168 Dalam kategori Gabungan68 Dalam kategori Kepatuhan instruksi61 Dalam kategori Kecerdasan umum59 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

209/209

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#52	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.751	12/22	84.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.751 Waktu respons (rata-rata) 84.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Total Tes 22 Tes Salah 19 Total Biaya $0.036 Waktu respons (rata-rata) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Total Tes 22 Tes Salah 12 Total Biaya $0.200 Waktu respons (rata-rata) 79.1s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Total Tes 22 Tes Salah 5 Total Biaya $1.707 Waktu respons (rata-rata) 76.5s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Total Tes 22 Tes Salah 8 Total Biaya $0.163 Waktu respons (rata-rata) 75.4s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Total Tes 22 Tes Salah 10 Total Biaya $0.286 Waktu respons (rata-rata) 75.0s
#108	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Total Tes 22 Tes Salah 11 Total Biaya $0.103 Waktu respons (rata-rata) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Total Tes 22 Tes Salah 11 Total Biaya $0.078 Waktu respons (rata-rata) 68.6s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Total Tes 22 Tes Salah 17 Total Biaya $0.340 Waktu respons (rata-rata) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Total Tes 16 Tes Salah 3 Total Biaya $2.310 Waktu respons (rata-rata) 68.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Total Tes 22 Tes Salah 6 Total Biaya $1.143 Waktu respons (rata-rata) 67.5s
#86	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Total Tes 22 Tes Salah 11 Total Biaya $1.207 Waktu respons (rata-rata) 64.7s
#72	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Total Tes 22 Tes Salah 8 Total Biaya $1.046 Waktu respons (rata-rata) 64.2s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Total Tes 22 Tes Salah 7 Total Biaya $1.006 Waktu respons (rata-rata) 64.2s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Total Tes 22 Tes Salah 8 Total Biaya $0.970 Waktu respons (rata-rata) 62.7s

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)