Peringkat Parsing dan ekstraksi data x Jawaban salah

Lihat model AI mana yang paling mungkin mengalami Jawaban salah di Parsing dan ekstraksi data, agar Anda bisa menemukan titik lemahnya lebih cepat.

Model yang ditampilkan

Total kegagalan

Model yang paling terdampak

GPT-5 Nano 2

Alasan kegagalan

Jawaban salah41 Kesalahan API14 Tidak ada jawaban8 Format tambahan6 Kedaluwarsa1

Kategori

Spesifik domain412 Trik anti-AI293 Pemrograman252 Pemecahan teka-teki201 Pengetahuan umum168 Gabungan68 Kepatuhan instruksi61 Kecerdasan umum59 Parsing dan ekstraksi data41 Pemanggilan alat3

36/36

Peringkat	Model	Perusahaan	Jumlah Jawaban salah	Skor kategori	Total Biaya	Tes benar	Waktu respons (rata-rata)
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
Total Tes 2 Tes Salah 2 Total Biaya $0.114 Waktu respons (rata-rata) 21.4s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
Total Tes 2 Tes Salah 2 Total Biaya $0.340 Waktu respons (rata-rata) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
Total Tes 2 Tes Salah 2 Total Biaya $0.007 Waktu respons (rata-rata) 575ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
Total Tes 2 Tes Salah 2 Total Biaya $0.000 Waktu respons (rata-rata) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
Total Tes 2 Tes Salah 2 Total Biaya $0.001 Waktu respons (rata-rata) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
Total Tes 2 Tes Salah 1 Total Biaya $1.931 Waktu respons (rata-rata) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
Total Tes 2 Tes Salah 1 Total Biaya $2.077 Waktu respons (rata-rata) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
Total Tes 2 Tes Salah 1 Total Biaya $1.166 Waktu respons (rata-rata) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
Total Tes 2 Tes Salah 1 Total Biaya $0.454 Waktu respons (rata-rata) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
Total Tes 2 Tes Salah 1 Total Biaya $0.093 Waktu respons (rata-rata) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
Total Tes 2 Tes Salah 1 Total Biaya $0.467 Waktu respons (rata-rata) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
Total Tes 2 Tes Salah 1 Total Biaya $0.187 Waktu respons (rata-rata) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
Total Tes 2 Tes Salah 2 Total Biaya $0.469 Waktu respons (rata-rata) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
Total Tes 2 Tes Salah 2 Total Biaya $0.082 Waktu respons (rata-rata) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
Total Tes 2 Tes Salah 1 Total Biaya $0.103 Waktu respons (rata-rata) 37.4s

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang

Parsing dan ekstraksi data: Jawaban salah

Filter model

Model teratas menurut Jumlah Jawaban salah

Jumlah Jawaban salah vs Skor

Model teratas menurut Waktu respons (rata-rata)

Model teratas menurut Perkiraan biaya terbuang