Peringkat kegagalan Jawaban salah

Lihat model AI mana yang paling sering mengalami Jawaban salah, agar Anda bisa melihat risiko keandalan sebelum memilih.

Model yang ditampilkan

Total kegagalan

1585

Model yang paling terdampak

Mercury 2 17

Kategori

Dalam kategori Spesifik domain421 Dalam kategori Trik anti-AI293 Dalam kategori Pemrograman259 Dalam kategori Pemecahan teka-teki204 Dalam kategori Pengetahuan umum172 Dalam kategori Gabungan69 Dalam kategori Kecerdasan umum62 Dalam kategori Kepatuhan instruksi61 Dalam kategori Parsing dan ekstraksi data41 Dalam kategori Pemanggilan alat3

215/215

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Total Tes 22 Tes Salah 8 Total Biaya $0.515 Waktu respons (rata-rata) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Total Tes 22 Tes Salah 8 Total Biaya $0.234 Waktu respons (rata-rata) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Total Tes 22 Tes Salah 7 Total Biaya $0.267 Waktu respons (rata-rata) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Total Tes 22 Tes Salah 7 Total Biaya $0.405 Waktu respons (rata-rata) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Total Tes 22 Tes Salah 8 Total Biaya $1.097 Waktu respons (rata-rata) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.740 Waktu respons (rata-rata) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Total Tes 22 Tes Salah 10 Total Biaya $0.661 Waktu respons (rata-rata) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Total Tes 22 Tes Salah 8 Total Biaya $1.046 Waktu respons (rata-rata) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Total Tes 22 Tes Salah 9 Total Biaya $0.779 Waktu respons (rata-rata) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Total Tes 22 Tes Salah 11 Total Biaya $0.078 Waktu respons (rata-rata) 68.6s
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Total Tes 22 Tes Salah 12 Total Biaya $0.600 Waktu respons (rata-rata) 99.0s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Total Tes 22 Tes Salah 8 Total Biaya $0.300 Waktu respons (rata-rata) 2.65s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Total Tes 22 Tes Salah 10 Total Biaya $0.082 Waktu respons (rata-rata) 32.2s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Total Tes 21 Tes Salah 9 Total Biaya $0.333 Waktu respons (rata-rata) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Total Tes 21 Tes Salah 9 Total Biaya $0.043 Waktu respons (rata-rata) 20.1s

←

1 9 10 11 15

→

Kegagalan Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)