Peringkat Parsing dan ekstraksi data x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Parsing dan ekstraksi data, agar Anda bisa menemukan titik lemahnya lebih cepat. Urutkan berdasarkan: Waktu respons (rata-rata) ↑.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

Granite 4.1 8B 2

Alasan kegagalan

Jawaban salah41 Kesalahan API14 Tidak ada jawaban8 Format tambahan6 Kedaluwarsa1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

36/36

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
Total Tes 2 Tes Salah 2 Total Biaya $0.007 Waktu respons (rata-rata) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
Total Tes 2 Tes Salah 1 Total Biaya $0.030 Waktu respons (rata-rata) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
Total Tes 2 Tes Salah 2 Total Biaya $0.001 Waktu respons (rata-rata) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.093 Waktu respons (rata-rata) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.041 Waktu respons (rata-rata) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
Total Tes 2 Tes Salah 1 Total Biaya $0.025 Waktu respons (rata-rata) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
Total Tes 2 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
Total Tes 2 Tes Salah 1 Total Biaya $1.166 Waktu respons (rata-rata) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
Total Tes 2 Tes Salah 1 Total Biaya $0.019 Waktu respons (rata-rata) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
Total Tes 2 Tes Salah 1 Total Biaya $0.087 Waktu respons (rata-rata) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
Total Tes 2 Tes Salah 1 Total Biaya $2.077 Waktu respons (rata-rata) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
Total Tes 2 Tes Salah 1 Total Biaya $0.454 Waktu respons (rata-rata) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
Total Tes 2 Tes Salah 1 Total Biaya $0.000 Waktu respons (rata-rata) 2.72s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Parsing dan ekstraksi data: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang