Peringkat model Gabungan

Lihat model AI mana yang paling baik di Gabungan, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Rata-rata Skor Gabungan

5.5

Model terbaik

Gemini 3 Flash Preview 10.0

Alasan kegagalan

Dengan alasan kegagalan Pemanggilan alat tidak valid91 Dengan alasan kegagalan Jawaban salah68 Dengan alasan kegagalan Tidak ada jawaban29 Dengan alasan kegagalan Kesalahan API26 Dengan alasan kegagalan Kedaluwarsa5 Dengan alasan kegagalan Format tambahan1 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Gabungan	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#53	GPT-5.4 Nano medium	OpenAI	9.9	7.5	$0.138	2/2	32.2s
Total Tes 2 Tes Salah 0 Total Biaya $0.138 Waktu respons (rata-rata) 32.2s
#54	GPT-5.3 Chat none	OpenAI	10.0	7.5	$0.571	2/2	15.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.571 Waktu respons (rata-rata) 15.1s
#63	Claude Sonnet 4.6 none	Anthropic	9.8	7.3	$0.661	2/2	37.5s
Total Tes 2 Tes Salah 0 Total Biaya $0.661 Waktu respons (rata-rata) 37.5s
#66	Claude Opus 4.8 none	Anthropic	9.8	7.3	$1.166	2/2	26.4s
Total Tes 2 Tes Salah 0 Total Biaya $1.166 Waktu respons (rata-rata) 26.4s
#71	Qwen3.7 Plus none	Qwen	10.0	7.2	$0.106	2/2	117.7s
Total Tes 2 Tes Salah 0 Total Biaya $0.106 Waktu respons (rata-rata) 117.7s
#74	GLM 5.1 medium	Z.ai	9.8	7.1	$0.535	2/2	175.9s
Total Tes 2 Tes Salah 0 Total Biaya $0.535 Waktu respons (rata-rata) 175.9s
#91	LongCat 2.0 low	Meituan	10.0	6.7	$0.391	2/2	130.2s
Total Tes 2 Tes Salah 0 Total Biaya $0.391 Waktu respons (rata-rata) 130.2s
#94	Claude Opus 4.7 none	Anthropic	4.8	6.6	$0.505	1/1	18.3s
Total Tes 1 Tes Salah 0 Total Biaya $0.505 Waktu respons (rata-rata) 18.3s
#97	LongCat 2.0 high	Meituan	10.0	6.6	$0.469	2/2	167.1s
Total Tes 2 Tes Salah 0 Total Biaya $0.469 Waktu respons (rata-rata) 167.1s
#100	Hy3 preview medium	Tencent	5.0	6.5	$0.018	1/1	46.0s
Total Tes 1 Tes Salah 0 Total Biaya $0.018 Waktu respons (rata-rata) 46.0s
#113	MiMo-V2-Flash medium	Xiaomi	4.9	6.3	$0.043	1/1	75.7s
Total Tes 1 Tes Salah 0 Total Biaya $0.043 Waktu respons (rata-rata) 75.7s
#131	Grok 4.20 Beta medium	X AI	5.0	6.0	$0.750	1/1	20.9s
Total Tes 1 Tes Salah 0 Total Biaya $0.750 Waktu respons (rata-rata) 20.9s
#134	Mimo V2 Omni medium	Xiaomi	5.0	5.9	$0.683	1/1	25.9s
Total Tes 1 Tes Salah 0 Total Biaya $0.683 Waktu respons (rata-rata) 25.9s
#135	Hy3 preview high	Tencent	5.0	5.9	$0.048	1/1	113.1s
Total Tes 1 Tes Salah 0 Total Biaya $0.048 Waktu respons (rata-rata) 113.1s
#143	Gemini 3.1 Flash Lite high	Google	5.0	5.6	$2.044	1/1	149.2s
Total Tes 1 Tes Salah 0 Total Biaya $2.044 Waktu respons (rata-rata) 149.2s

Peringkat Gabungan

Filter model

Model teratas menurut Skor Gabungan

Skor Gabungan vs total biaya

Model teratas menurut Waktu respons (rata-rata)