Harga input
$0.500 / 1M
Harga output
$2.000 / 1M
Tes tidak stabil
1
Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).
Riwayat run
| Diuji pada | Skor | Keandalan | Tes benar | Total Biaya | Bandingkan |
|---|---|---|---|---|---|
| 2026-04-27 21:48 Tes baru ditambahkan | 7.0 | 10.0 | $0.209 | Bandingkan | |
| 2026-04-27 21:31 Run pertama yang tercatat | 7.9 | 10.0 | $0.043 | Run saat ini |
Perbandingan run
| Run | Skor | Konsistensi | Keandalan | Tes benar | Tes tidak stabil | Total token output | Total Biaya | Waktu respons (rata-rata) |
|---|---|---|---|---|---|---|---|---|
| 2026-04-27 21:31 · Run pertama yang tercatat | 7.9 | 8.5 | 10.0 | 4/6 | 1 | 21,553 | $0.043 | 25.56s |
| 2026-04-27 21:48 · Tes baru ditambahkan | 7.0 | 7.9 | 10.0 | 9/18 | 5 | 99,362 | $0.209 | 50.53s |
| Selisih | +0.9 | +0.6 | 0.0 | -5 | -4 | -77809 | -$0.166 | -24972ms |
Kedua run ini menggunakan suite benchmark yang berbeda, jadi selisihnya mencerminkan perubahan model sekaligus perubahan suite.
Grafik
Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.
Skor vs Total Biaya
Waktu respons (rata-rata)
Skor vs Waktu respons (rata-rata)
Total token output
Skor vs Total token output
Perbandingan Cepat
Qwen3.6 27BmediumvsGPT-5.4 MinimediumQwen3.6 27BmediumvsKimi K2.5mediumQwen3.6 27BmediumvsQwen3.6 Max PreviewnoneQwen3.6 27BmediumvsQwen3.5-35B-A3BmediumQwen3.6 27BmediumvsGrok 4.20mediumQwen3.6 27BmediumvsGemini 3 Flash PreviewmediumQwen3.6 27BmediumvsGemini 3.1 Pro PreviewmediumQwen3.6 27BmediumvsHY3 PreviewhighTersedia gratis
Rincian Kategori
| Kategori | Skor | Konsistensi | Tes benar |
|---|---|---|---|
| Trik anti-AI | 10.0 | 10.0 | |
| Parsing dan ekstraksi data | 4.3 | 1.2 | |
| Spesifik domain | 3.0 | 10.0 | |
| Kepatuhan instruksi | 10.0 | 10.0 | |
| Pemanggilan alat | 10.0 | 10.0 |