Peringkat model Spesifik domain

Lihat model AI mana yang paling baik di Spesifik domain, mana yang tetap andal, dan di mana kesenjangan terbesar muncul. Urutkan berdasarkan: Tes benar ↓.

Model yang ditampilkan

Rata-rata Skor Spesifik domain

4.7

Model terbaik

Gemini 3 Flash Preview 10.0

Alasan kegagalan

Dengan alasan kegagalan Jawaban salah412 Dengan alasan kegagalan Kedaluwarsa43 Dengan alasan kegagalan Format tambahan17 Dengan alasan kegagalan Tidak ada jawaban8 Dengan alasan kegagalan Kesalahan API7 Dengan alasan kegagalan Tidak mengikuti instruksi1

210/210

Peringkat	Model	Perusahaan	Skor Spesifik domain	Skor	Total Biaya	Tes benar	Waktu respons (rata-rata)
#1	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	3/3	15.3s
Total Tes 3 Tes Salah 0 Total Biaya $0.742 Waktu respons (rata-rata) 15.3s
#88	Gemini 3.5 Flash minimal	Google	10.0	6.8	$0.300	3/3	899ms
Total Tes 3 Tes Salah 0 Total Biaya $0.300 Waktu respons (rata-rata) 899ms
#209	Step 3.5 Flash none	Stepfun	3.3	2.3	$0.020	1/1	34.5s
Total Tes 1 Tes Salah 0 Total Biaya $0.020 Waktu respons (rata-rata) 34.5s
#2	Gemini 3.5 Flash high	Google	7.6	9.5	$1.976	2/3	14.1s
Total Tes 3 Tes Salah 1 Total Biaya $1.976 Waktu respons (rata-rata) 14.1s
#7	Gemini 3.1 Pro Preview medium	Google	7.7	9.2	$1.361	2/3	32.7s
Total Tes 3 Tes Salah 1 Total Biaya $1.361 Waktu respons (rata-rata) 32.7s
#9	Gemini 3.5 Flash medium	Google	7.7	9.1	$0.642	2/3	5.24s
Total Tes 3 Tes Salah 1 Total Biaya $0.642 Waktu respons (rata-rata) 5.24s
#11	Gemini 3.5 Flash low	Google	7.7	8.9	$0.433	2/3	3.39s
Total Tes 3 Tes Salah 1 Total Biaya $0.433 Waktu respons (rata-rata) 3.39s
#15	Claude Opus 4.7 medium	Anthropic	7.7	8.7	$1.477	2/3	1.17s
Total Tes 3 Tes Salah 1 Total Biaya $1.477 Waktu respons (rata-rata) 1.17s
#23	Claude Sonnet 5 medium	Anthropic	7.7	8.3	$0.922	2/3	20.4s
Total Tes 3 Tes Salah 1 Total Biaya $0.922 Waktu respons (rata-rata) 20.4s
#28	Inkling high	Thinkingmachines	7.7	8.0	$1.006	2/3	186.4s
Total Tes 3 Tes Salah 1 Total Biaya $1.006 Waktu respons (rata-rata) 186.4s
#29	Step 3.7 Flash medium	Stepfun	7.7	8.0	$0.515	2/3	48.3s
Total Tes 3 Tes Salah 1 Total Biaya $0.515 Waktu respons (rata-rata) 48.3s
#44	GPT-5.6 Luna high	OpenAI	7.7	7.7	$1.017	2/3	79.0s
Total Tes 3 Tes Salah 1 Total Biaya $1.017 Waktu respons (rata-rata) 79.0s
#59	Qwen3.7 Max none	Qwen	7.7	7.4	$0.197	2/3	975ms
Total Tes 3 Tes Salah 1 Total Biaya $0.197 Waktu respons (rata-rata) 975ms
#63	Claude Sonnet 4.6 none	Anthropic	7.7	7.3	$0.661	2/3	3.54s
Total Tes 3 Tes Salah 1 Total Biaya $0.661 Waktu respons (rata-rata) 3.54s
#79	Gemini 3.5 Flash none	Google	7.6	7.0	$1.079	2/3	10.6s
Total Tes 3 Tes Salah 1 Total Biaya $1.079 Waktu respons (rata-rata) 10.6s

Peringkat Spesifik domain

Filter model

Model teratas menurut Skor Spesifik domain

Skor Spesifik domain vs total biaya

Model teratas menurut Waktu respons (rata-rata)