10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
3.3Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
10.0Skor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
T/ASkor sukses percobaan pertama: 10.0 berarti tidak ada kegagalan API target atau batas laju yang dapat dicoba ulang sebelum panggilan berhasil; kegagalan yang tercatat menurunkan skor.โฆ
Konsistensi
8.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
8.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
6.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Kedaluwarsa: 2Kesalahan API: 1Tidak ada jawaban: 1Waktu respons (rata-rata)33.45sWaktu respons (maks)172.60sWaktu respons (total)635.63sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)15.25sWaktu respons (maks)43.55sWaktu respons (total)182.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
Tingkat lulus per percobaan
81.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
71.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
75.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
Tes tidak stabil
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
4Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
8Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Total Run
98Total Runโฆ
98Total Runโฆ
98Total Runโฆ
57Total Runโฆ
Biaya per hasil
1.818Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
2.890Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
4.008Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
0.000Menampilkan biaya rata-rata per jawaban benchmark yang benar dalam sen (semakin rendah semakin baik).โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.66sWaktu respons (maks)25.06sWaktu respons (total)47.32sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.31sWaktu respons (maks)14.20sWaktu respons (total)33.24sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Jawaban salah: 1Waktu respons (rata-rata)51.38sWaktu respons (maks)85.28sWaktu respons (total)102.75sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
51.38sWaktu respons (rata-rata)โฆ
2,789Token outputโฆ
8,880Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.69sWaktu respons (maks)19.37sWaktu respons (total)35.08sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)89.47sWaktu respons (maks)99.85sWaktu respons (total)178.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
1.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)145.56sWaktu respons (maks)172.60sWaktu respons (total)291.12sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
1.9Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
50.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)215.89sWaktu respons (maks)281.00sWaktu respons (total)431.77sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
215.89sWaktu respons (rata-rata)โฆ
5,700Token outputโฆ
45,419Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.โฆ
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.96sWaktu respons (maks)28.96sWaktu respons (total)28.96sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.11sWaktu respons (maks)43.11sWaktu respons (total)43.11sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.37sWaktu respons (maks)71.37sWaktu respons (total)71.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
71.37sWaktu respons (rata-rata)โฆ
703Token outputโฆ
3,713Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.95sWaktu respons (maks)34.95sWaktu respons (total)34.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.6Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
83.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)8.90sWaktu respons (maks)8.90sWaktu respons (total)8.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.33sWaktu respons (maks)9.40sWaktu respons (total)18.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)49.78sWaktu respons (maks)49.78sWaktu respons (total)49.78sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
49.78sWaktu respons (rata-rata)โฆ
563Token outputโฆ
7,940Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.95sWaktu respons (maks)15.40sWaktu respons (total)29.90sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)29.77sWaktu respons (maks)32.22sWaktu respons (total)89.30sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
4.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
33.3%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
2Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)137.29sWaktu respons (maks)137.29sWaktu respons (total)137.29sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
137.29sWaktu respons (rata-rata)โฆ
20,753Token outputโฆ
30,564Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
3.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)22.08sWaktu respons (maks)43.55sWaktu respons (total)66.23sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.1Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.69sWaktu respons (maks)14.69sWaktu respons (total)14.69sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.95sWaktu respons (maks)20.95sWaktu respons (total)20.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
3.4Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)69.73sWaktu respons (maks)69.73sWaktu respons (total)69.73sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
69.73sWaktu respons (rata-rata)โฆ
3,815Token outputโฆ
4,262Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.โฆ
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.25sWaktu respons (maks)7.25sWaktu respons (total)7.25sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
5.8Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
66.7%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.47sWaktu respons (maks)10.16sWaktu respons (total)14.94sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)92.47sWaktu respons (maks)92.47sWaktu respons (total)92.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
92.47sWaktu respons (rata-rata)โฆ
5,371Token outputโฆ
6,547Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.40sWaktu respons (maks)3.40sWaktu respons (total)3.40sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.33sWaktu respons (maks)16.34sWaktu respons (total)22.66sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.2Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
88.9%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)31.64sWaktu respons (maks)46.04sWaktu respons (total)94.91sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
7.3Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
44.4%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
1Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)43.23sWaktu respons (maks)82.75sWaktu respons (total)86.47sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
43.23sWaktu respons (rata-rata)โฆ
30,732Token outputโฆ
34,998Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.52sWaktu respons (maks)7.52sWaktu respons (total)7.52sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.93sWaktu respons (maks)15.93sWaktu respons (total)15.93sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.74sWaktu respons (maks)31.74sWaktu respons (total)31.74sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
31.74sWaktu respons (rata-rata)โฆ
242Token outputโฆ
812Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
10.0Skor rata-rata di semua tes benchmark.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
100.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.87sWaktu respons (maks)5.87sWaktu respons (total)5.87sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)67.37sWaktu respons (maks)67.37sWaktu respons (total)67.37sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)29.40sWaktu respons (maks)29.40sWaktu respons (total)29.40sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
10.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)83.95sWaktu respons (maks)83.95sWaktu respons (total)83.95sTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ
83.95sWaktu respons (rata-rata)โฆ
12Token outputโฆ
7,644Token penalaranโฆ
Qwen3.6 Plus PreviewModel diarsipkan: model ini tidak lagi diperbarui atau diuji pada pengujian baru.
0.0Skor rata-rata di semua tes benchmark.โฆ
0.0Skor konsistensi mencerminkan kestabilan antar run (10 = sangat konsisten, bahkan jika konsisten salah).โฆ
0.0%Tingkat lulus per percobaan = percobaan lulus / total percobaan di semua run.โฆ
0Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).โฆ
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0msTes dianggap lulus penuh hanya jika semua run-nya lulus.โฆ