Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.11sWaktu respons (maks)82.37sWaktu respons (total)217.93s…
Total Tes: 18Tes Salah: 0Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 100.0%Tes tidak stabil: 0…Token output: 655Token penalaran: 33,749Waktu respons: rata-rata 12.11s · total 217.93s · maks 82.37s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)5.01sWaktu respons (total)13.04s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)82.37sWaktu respons (maks)82.37sWaktu respons (total)82.37s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.58sWaktu respons (maks)23.58sWaktu respons (total)23.58s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.62sWaktu respons (maks)8.37sWaktu respons (total)15.24s
Spesifik domain
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.81sWaktu respons (maks)32.44sWaktu respons (total)44.43s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.34sWaktu respons (maks)6.34sWaktu respons (total)6.34s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.30sWaktu respons (maks)5.19sWaktu respons (total)8.59s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.86sWaktu respons (maks)7.59sWaktu respons (total)14.57s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.78sWaktu respons (maks)9.78sWaktu respons (total)9.78s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)15.96sWaktu respons (maks)40.61sWaktu respons (total)175.52s…
Total Tes: 18Tes Salah: 1Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 94.4%Tes tidak stabil: 0…Token output: 1,932Token penalaran: 40,542Waktu respons: rata-rata 15.96s · total 175.52s · maks 40.61s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.90sWaktu respons (maks)9.52sWaktu respons (total)15.80s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.88sWaktu respons (maks)19.88sWaktu respons (total)19.88s
Gabungan
: 9.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)40.61sWaktu respons (maks)40.61sWaktu respons (total)40.61s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)32.73sWaktu respons (maks)32.73sWaktu respons (total)32.73s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.77sWaktu respons (maks)11.77sWaktu respons (total)11.77s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.15sWaktu respons (maks)8.49sWaktu respons (total)14.30s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.15sWaktu respons (maks)23.15sWaktu respons (total)23.15s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)3.53sWaktu respons (maks)21.45sWaktu respons (total)60.03s…
Total Tes: 18Tes Salah: 2Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 88.9%Tes tidak stabil: 0…Token output: 5,375Token penalaran: 1,341Waktu respons: rata-rata 3.53s · total 60.03s · maks 21.45s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.85sWaktu respons (maks)2.71sWaktu respons (total)7.38s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.41sWaktu respons (maks)6.41sWaktu respons (total)6.41s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.45sWaktu respons (maks)21.45sWaktu respons (total)21.45s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.37sWaktu respons (maks)3.30sWaktu respons (total)4.74s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)1.17sWaktu respons (maks)1.40sWaktu respons (total)2.35s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.87sWaktu respons (maks)2.87sWaktu respons (total)2.87s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.57sWaktu respons (maks)1.66sWaktu respons (total)3.14s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.51sWaktu respons (maks)2.89sWaktu respons (total)7.54s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.17sWaktu respons (maks)4.17sWaktu respons (total)4.17s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.13sWaktu respons (maks)18.27sWaktu respons (total)56.33s…
Total Tes: 18Tes Salah: 2Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 88.9%Tes tidak stabil: 0…Token output: 6,326Token penalaran: 0Waktu respons: rata-rata 3.13s · total 56.33s · maks 18.27s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.12sWaktu respons (maks)3.75sWaktu respons (total)8.50s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.84sWaktu respons (maks)2.84sWaktu respons (total)2.84s
Gabungan
: 9.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.27sWaktu respons (maks)18.27sWaktu respons (total)18.27s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.15sWaktu respons (maks)2.33sWaktu respons (total)4.29s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.19sWaktu respons (maks)1.40sWaktu respons (total)3.58s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.47sWaktu respons (maks)3.47sWaktu respons (total)3.47s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.46sWaktu respons (maks)1.68sWaktu respons (total)2.91s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.58sWaktu respons (maks)4.07sWaktu respons (total)7.73s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.74sWaktu respons (maks)4.74sWaktu respons (total)4.74s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)32.75sWaktu respons (maks)332.10sWaktu respons (total)589.59s…
Total Tes: 18Tes Salah: 3Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 87.0%Tes tidak stabil: 2…Token output: 1,920Token penalaran: 89,632Waktu respons: rata-rata 32.75s · total 589.59s · maks 332.10s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.66sWaktu respons (maks)6.74sWaktu respons (total)18.65s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.09sWaktu respons (maks)9.09sWaktu respons (total)9.09s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.29sWaktu respons (maks)19.29sWaktu respons (total)19.29s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.18sWaktu respons (maks)4.35sWaktu respons (total)8.36s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)164.14sWaktu respons (maks)332.10sWaktu respons (total)492.41s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.16sWaktu respons (maks)4.16sWaktu respons (total)4.16s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.36sWaktu respons (maks)3.46sWaktu respons (total)6.73s
Pemecahan teka-teki
: 8.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.78sWaktu respons (maks)10.54sWaktu respons (total)20.33s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.57sWaktu respons (maks)10.57sWaktu respons (total)10.57s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)6.01sWaktu respons (maks)14.72sWaktu respons (total)108.12s…
Total Tes: 18Tes Salah: 3Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 85.2%Tes tidak stabil: 1…Token output: 2,018Token penalaran: 23,273Waktu respons: rata-rata 6.01s · total 108.12s · maks 14.72s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.48sWaktu respons (maks)4.31sWaktu respons (total)13.94s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.94sWaktu respons (maks)6.94sWaktu respons (total)6.94s
Gabungan
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.27sWaktu respons (maks)3.27sWaktu respons (total)3.27s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.40sWaktu respons (maks)14.72sWaktu respons (total)18.80s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)8.05sWaktu respons (maks)14.40sWaktu respons (total)24.15s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.68sWaktu respons (maks)3.68sWaktu respons (total)3.68s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.02sWaktu respons (maks)7.35sWaktu respons (total)14.03s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.11sWaktu respons (maks)10.27sWaktu respons (total)18.32s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.99sWaktu respons (maks)4.99sWaktu respons (total)4.99s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 2Waktu respons (rata-rata)30.37sWaktu respons (maks)168.71sWaktu respons (total)546.72s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 3…Token output: 3,257Token penalaran: 52,042Waktu respons: rata-rata 30.37s · total 546.72s · maks 168.71s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)17.99sWaktu respons (maks)48.33sWaktu respons (total)71.98s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)74.49sWaktu respons (maks)74.49sWaktu respons (total)74.49s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)37.67sWaktu respons (maks)37.67sWaktu respons (total)37.67s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.07sWaktu respons (maks)12.19sWaktu respons (total)18.14s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)88.74sWaktu respons (maks)168.71sWaktu respons (total)266.21s
Kecerdasan umum
: 6.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)18.25sWaktu respons (maks)18.25sWaktu respons (total)18.25s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.26sWaktu respons (maks)9.02sWaktu respons (total)14.52s
Pemecahan teka-teki
: 9.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)11.03sWaktu respons (maks)13.85sWaktu respons (total)33.09s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.38sWaktu respons (maks)12.38sWaktu respons (total)12.38s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 2Waktu respons (rata-rata)15.38sWaktu respons (maks)100.93sWaktu respons (total)276.91s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 3…Token output: 2,279Token penalaran: 35,179Waktu respons: rata-rata 15.38s · total 276.91s · maks 100.93s
Trik anti-AI
: 8.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.16sWaktu respons (maks)6.68sWaktu respons (total)16.63s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.95sWaktu respons (maks)8.95sWaktu respons (total)8.95s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.56sWaktu respons (maks)19.56sWaktu respons (total)19.56s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.07sWaktu respons (maks)3.59sWaktu respons (total)6.15s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)64.31sWaktu respons (maks)100.93sWaktu respons (total)192.94s
Kecerdasan umum
: 4.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.87sWaktu respons (maks)4.87sWaktu respons (total)4.87s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.04sWaktu respons (maks)3.44sWaktu respons (total)6.07s
Pemecahan teka-teki
: 9.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.12sWaktu respons (maks)8.73sWaktu respons (total)15.37s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.37sWaktu respons (maks)6.37sWaktu respons (total)6.37s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Jawaban salah: 2Waktu respons (rata-rata)46.56sWaktu respons (maks)120.91sWaktu respons (total)512.20s…
Total Tes: 18Tes Salah: 4Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 2…Token output: 2,121Token penalaran: 111,889Waktu respons: rata-rata 46.56s · total 512.20s · maks 120.91s
Trik anti-AI
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)45.78sWaktu respons (maks)81.20sWaktu respons (total)91.57s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)120.91sWaktu respons (maks)120.91sWaktu respons (total)120.91s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.85sWaktu respons (maks)46.85sWaktu respons (total)46.85s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.91sWaktu respons (maks)46.91sWaktu respons (total)46.91s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)17.50sWaktu respons (maks)17.50sWaktu respons (total)17.50s
Kecerdasan umum
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)79.86sWaktu respons (maks)79.86sWaktu respons (total)79.86s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.93sWaktu respons (maks)31.93sWaktu respons (total)31.93s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.57sWaktu respons (maks)49.12sWaktu respons (total)69.13s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.54sWaktu respons (maks)7.54sWaktu respons (total)7.54s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 81.5%Tes tidak stabil: 3…Token output: 238,920Token penalaran: 0Waktu respons: rata-rata 55.19s · total 938.23s · maks 149.94s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)32.69sWaktu respons (maks)85.41sWaktu respons (total)130.78s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)99.76sWaktu respons (maks)99.76sWaktu respons (total)99.76s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)113.09sWaktu respons (maks)113.09sWaktu respons (total)113.09s
Parsing dan ekstraksi data
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)12.11sWaktu respons (maks)12.11sWaktu respons (total)12.11s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)109.04sWaktu respons (maks)149.94sWaktu respons (total)327.11s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.31sWaktu respons (maks)24.31sWaktu respons (total)24.31s
Kepatuhan instruksi
: 8.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)34.02sWaktu respons (maks)41.83sWaktu respons (total)68.04s
Pemecahan teka-teki
: 9.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)28.07sWaktu respons (maks)45.06sWaktu respons (total)84.21s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)78.83sWaktu respons (maks)78.83sWaktu respons (total)78.83s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)13.94sWaktu respons (maks)43.55sWaktu respons (total)237.01s…
Total Tes: 17Tes Salah: 4Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 76.5%Tes tidak stabil: 0…Token output: 1,756Token penalaran: 77,213Waktu respons: rata-rata 13.94s · total 237.01s · maks 43.55s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.90sWaktu respons (maks)19.37sWaktu respons (total)39.60s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.95sWaktu respons (maks)34.95sWaktu respons (total)34.95s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.95sWaktu respons (maks)15.40sWaktu respons (total)29.90s
Spesifik domain
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)22.08sWaktu respons (maks)43.55sWaktu respons (total)66.23s
Kecerdasan umum
: 5.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)27.05sWaktu respons (maks)27.05sWaktu respons (total)27.05s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.54sWaktu respons (maks)11.67sWaktu respons (total)15.07s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.11sWaktu respons (maks)7.52sWaktu respons (total)18.34s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.87sWaktu respons (maks)5.87sWaktu respons (total)5.87s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 81.5%Tes tidak stabil: 3…Token output: 2,500Token penalaran: 242,500Waktu respons: rata-rata 53.03s · total 954.46s · maks 163.96s
Trik anti-AI
: 8.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)19.75sWaktu respons (maks)49.95sWaktu respons (total)79.01s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)70.35sWaktu respons (maks)70.35sWaktu respons (total)70.35s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)163.96sWaktu respons (maks)163.96sWaktu respons (total)163.96s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)30.26sWaktu respons (maks)32.03sWaktu respons (total)60.52s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)79.53sWaktu respons (maks)95.52sWaktu respons (total)238.59s
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)101.41sWaktu respons (maks)101.41sWaktu respons (total)101.41s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.66sWaktu respons (maks)32.25sWaktu respons (total)39.32s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)64.61sWaktu respons (maks)123.57sWaktu respons (total)193.84s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.45sWaktu respons (maks)7.45sWaktu respons (total)7.45s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)68.83sWaktu respons (maks)280.52sWaktu respons (total)1101.32s…
Total Tes: 16Tes Salah: 4Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.1%Tes tidak stabil: 1…Token output: 1,283Token penalaran: 1,533,310Waktu respons: rata-rata 68.83s · total 1101.32s · maks 280.52s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.87sWaktu respons (maks)121.88sWaktu respons (total)131.62s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)280.52sWaktu respons (maks)280.52sWaktu respons (total)280.52s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.16sWaktu respons (maks)8.54sWaktu respons (total)14.31s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)127.58sWaktu respons (maks)133.93sWaktu respons (total)382.74s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.25sWaktu respons (maks)5.25sWaktu respons (total)5.25s
Kepatuhan instruksi
: 7.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)70.07sWaktu respons (maks)136.53sWaktu respons (total)140.14s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)46.33sWaktu respons (maks)134.22sWaktu respons (total)139.00s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.73sWaktu respons (maks)7.73sWaktu respons (total)7.73s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kesalahan API: 1Waktu respons (rata-rata)9.06sWaktu respons (maks)26.24sWaktu respons (total)90.58s…
Total Tes: 18Tes Salah: 4Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.8%Tes tidak stabil: 0…Token output: 1,508Token penalaran: 10,084Waktu respons: rata-rata 9.06s · total 90.58s · maks 26.24s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.99sWaktu respons (maks)26.24sWaktu respons (total)29.99s
Pemrograman
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Gabungan
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.37sWaktu respons (maks)10.37sWaktu respons (total)10.37s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.84sWaktu respons (maks)10.84sWaktu respons (total)10.84s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.01sWaktu respons (maks)7.01sWaktu respons (total)7.01s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.34sWaktu respons (maks)9.34sWaktu respons (total)9.34s
Kepatuhan instruksi
: 9.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)3.26sWaktu respons (total)3.26s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.91sWaktu respons (maks)4.23sWaktu respons (total)7.81s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 85.2%Tes tidak stabil: 4…Token output: 20,163Token penalaran: 58,337Waktu respons: rata-rata 23.34s · total 233.40s · maks 79.09s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.66sWaktu respons (maks)25.06sWaktu respons (total)47.32s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)79.09sWaktu respons (maks)79.09sWaktu respons (total)79.09s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.96sWaktu respons (maks)28.96sWaktu respons (total)28.96s
Parsing dan ekstraksi data
: 7.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)8.90sWaktu respons (maks)8.90sWaktu respons (total)8.90s
Spesifik domain
: 3.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.69sWaktu respons (maks)14.69sWaktu respons (total)14.69s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.25sWaktu respons (maks)7.25sWaktu respons (total)7.25s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.64sWaktu respons (maks)16.34sWaktu respons (total)31.27s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.93sWaktu respons (maks)15.93sWaktu respons (total)15.93s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 79.6%Tes tidak stabil: 2…Token output: 12,734Token penalaran: 27,950Waktu respons: rata-rata 24.88s · total 398.13s · maks 70.97s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.89sWaktu respons (maks)26.66sWaktu respons (total)51.55s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)70.97sWaktu respons (maks)70.97sWaktu respons (total)70.97s
Gabungan
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.11sWaktu respons (maks)21.94sWaktu respons (total)42.21s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)38.48sWaktu respons (maks)68.92sWaktu respons (total)115.43s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.57sWaktu respons (maks)9.57sWaktu respons (total)9.57s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.76sWaktu respons (maks)17.53sWaktu respons (total)25.52s
Pemecahan teka-teki
: 8.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)27.63sWaktu respons (maks)61.08sWaktu respons (total)82.89s
Pemanggilan alat
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.12sWaktu respons (maks)95.48sWaktu respons (total)218.12s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 1…Token output: 1,898Token penalaran: 122,273Waktu respons: rata-rata 12.12s · total 218.12s · maks 95.48s
Trik anti-AI
: 8.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)6.30sWaktu respons (maks)15.56sWaktu respons (total)25.21s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.23sWaktu respons (maks)16.23sWaktu respons (total)16.23s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.44sWaktu respons (maks)28.44sWaktu respons (total)28.44s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.06sWaktu respons (maks)5.06sWaktu respons (total)8.11s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)37.34sWaktu respons (maks)95.48sWaktu respons (total)112.01s
Kecerdasan umum
: 4.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.86sWaktu respons (maks)4.86sWaktu respons (total)4.86s
Kepatuhan instruksi
: 9.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.62sWaktu respons (maks)2.78sWaktu respons (total)5.24s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.94sWaktu respons (maks)6.33sWaktu respons (total)11.83s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.20sWaktu respons (maks)6.20sWaktu respons (total)6.20s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 2Waktu respons (rata-rata)18.63sWaktu respons (maks)100.41sWaktu respons (total)335.26s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 79.6%Tes tidak stabil: 3…Token output: 2,169Token penalaran: 48,732Waktu respons: rata-rata 18.63s · total 335.26s · maks 100.41s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.11sWaktu respons (maks)6.42sWaktu respons (total)16.42s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.03sWaktu respons (maks)13.03sWaktu respons (total)13.03s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.57sWaktu respons (maks)20.57sWaktu respons (total)20.57s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.32sWaktu respons (maks)5.40sWaktu respons (total)10.64s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)74.27sWaktu respons (maks)100.41sWaktu respons (total)222.80s
Kecerdasan umum
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.92sWaktu respons (maks)4.92sWaktu respons (total)4.92s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.11sWaktu respons (maks)3.68sWaktu respons (total)6.22s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)9.13sWaktu respons (maks)18.14sWaktu respons (total)27.39s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.28sWaktu respons (maks)13.28sWaktu respons (total)13.28s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.74sWaktu respons (maks)14.93sWaktu respons (total)67.31s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 72.2%Tes tidak stabil: 0…Token output: 2,168Token penalaran: 29,030Waktu respons: rata-rata 3.74s · total 67.31s · maks 14.93s
Trik anti-AI
: 9.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.33sWaktu respons (maks)3.89sWaktu respons (total)9.30s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.34sWaktu respons (maks)4.34sWaktu respons (total)4.34s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.93sWaktu respons (maks)14.93sWaktu respons (total)14.93s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.29sWaktu respons (maks)2.31sWaktu respons (total)4.59s
Spesifik domain
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)4.21sWaktu respons (maks)5.86sWaktu respons (total)12.62s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.16sWaktu respons (maks)3.16sWaktu respons (total)3.16s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.91sWaktu respons (maks)1.93sWaktu respons (total)3.82s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.58sWaktu respons (maks)4.41sWaktu respons (total)10.75s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.80sWaktu respons (maks)3.80sWaktu respons (total)3.80s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 2Waktu respons (rata-rata)71.21sWaktu respons (maks)351.99sWaktu respons (total)1281.73s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 1…Token output: 671Token penalaran: 39,383Waktu respons: rata-rata 71.21s · total 1281.73s · maks 351.99s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)26.93sWaktu respons (maks)61.35sWaktu respons (total)107.71s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)93.00sWaktu respons (maks)93.00sWaktu respons (total)93.00s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.08sWaktu respons (maks)71.08sWaktu respons (total)71.08s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.00sWaktu respons (maks)102.80sWaktu respons (total)126.00s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)202.56sWaktu respons (maks)351.99sWaktu respons (total)607.68s
Kecerdasan umum
: 5.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)26.96sWaktu respons (maks)26.96sWaktu respons (total)26.96s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.60sWaktu respons (maks)20.03sWaktu respons (total)29.20s
Pemecahan teka-teki
: 7.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)69.69sWaktu respons (maks)92.65sWaktu respons (total)209.06s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.05sWaktu respons (maks)11.05sWaktu respons (total)11.05s
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.8%Tes tidak stabil: 5…Token output: 12,197Token penalaran: 38,933Waktu respons: rata-rata 17.67s · total 317.98s · maks 194.23s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.82sWaktu respons (maks)7.69sWaktu respons (total)19.26s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.26sWaktu respons (maks)12.26sWaktu respons (total)12.26s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.88sWaktu respons (maks)13.88sWaktu respons (total)13.88s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.19sWaktu respons (maks)6.42sWaktu respons (total)12.38s
Spesifik domain
: 2.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)71.07sWaktu respons (maks)194.23sWaktu respons (total)213.22s
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.05sWaktu respons (maks)10.05sWaktu respons (total)10.05s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.38sWaktu respons (maks)5.70sWaktu respons (total)10.77s
Pemecahan teka-teki
: 7.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Waktu respons (rata-rata)5.44sWaktu respons (maks)7.26sWaktu respons (total)16.32s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.84sWaktu respons (maks)9.84sWaktu respons (total)9.84s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kedaluwarsa: 2Waktu respons (rata-rata)31.38sWaktu respons (maks)119.29sWaktu respons (total)564.84s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 79.6%Tes tidak stabil: 3…Token output: 17,635Token penalaran: 162,668Waktu respons: rata-rata 31.38s · total 564.84s · maks 119.29s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.75sWaktu respons (maks)18.03sWaktu respons (total)39.01s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)70.98sWaktu respons (maks)70.98sWaktu respons (total)70.98s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)107.79sWaktu respons (maks)107.79sWaktu respons (total)107.79s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.41sWaktu respons (maks)29.79sWaktu respons (total)46.83s
Spesifik domain
: 2.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)63.40sWaktu respons (maks)119.29sWaktu respons (total)190.20s
Kecerdasan umum
: 3.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)34.11sWaktu respons (maks)34.11sWaktu respons (total)34.11s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.88sWaktu respons (maks)15.44sWaktu respons (total)19.76s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.18sWaktu respons (maks)31.99sWaktu respons (total)51.55s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.60sWaktu respons (maks)4.60sWaktu respons (total)4.60s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 1…Token output: 1,763Token penalaran: 83,782Waktu respons: rata-rata 15.27s · total 259.55s · maks 43.55s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.90sWaktu respons (maks)19.37sWaktu respons (total)39.60s
Pemrograman
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.95sWaktu respons (maks)34.95sWaktu respons (total)34.95s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.95sWaktu respons (maks)15.40sWaktu respons (total)29.90s
Spesifik domain
: 2.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)29.59sWaktu respons (maks)43.55sWaktu respons (total)88.77s
Kecerdasan umum
: 5.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)27.05sWaktu respons (maks)27.05sWaktu respons (total)27.05s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.54sWaktu respons (maks)11.67sWaktu respons (total)15.07s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.11sWaktu respons (maks)7.52sWaktu respons (total)18.34s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.87sWaktu respons (maks)5.87sWaktu respons (total)5.87s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 1…Token output: 65,778Token penalaran: 0Waktu respons: rata-rata 23.98s · total 407.72s · maks 78.74s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.61sWaktu respons (maks)38.50sWaktu respons (total)66.46s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.94sWaktu respons (maks)27.94sWaktu respons (total)27.94s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)78.74sWaktu respons (maks)78.74sWaktu respons (total)78.74s
Parsing dan ekstraksi data
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)5.85sWaktu respons (maks)5.85sWaktu respons (total)5.85s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)40.44sWaktu respons (maks)46.32sWaktu respons (total)121.31s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.44sWaktu respons (maks)16.44sWaktu respons (total)16.44s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.98sWaktu respons (maks)22.24sWaktu respons (total)31.97s
Pemecahan teka-teki
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Waktu respons (rata-rata)13.73sWaktu respons (maks)25.82sWaktu respons (total)41.19s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.84sWaktu respons (maks)17.84sWaktu respons (total)17.84s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Waktu respons (rata-rata)1.65sWaktu respons (maks)3.56sWaktu respons (total)18.20s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.8%Tes tidak stabil: 2…Token output: 1,840Token penalaran: 0Waktu respons: rata-rata 1.65s · total 18.20s · maks 3.56s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.25sWaktu respons (maks)1.59sWaktu respons (total)2.49s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.59sWaktu respons (maks)1.59sWaktu respons (total)1.59s
Gabungan
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.56sWaktu respons (maks)3.56sWaktu respons (total)3.56s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.41sWaktu respons (maks)1.41sWaktu respons (total)1.41s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)963msWaktu respons (maks)963msWaktu respons (total)963ms
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.13sWaktu respons (total)1.13s
Kepatuhan instruksi
: 6.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.58sWaktu respons (maks)1.58sWaktu respons (total)1.58s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.06sWaktu respons (maks)1.06sWaktu respons (total)2.12s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.35sWaktu respons (maks)3.35sWaktu respons (total)3.35s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.22sWaktu respons (maks)11.91sWaktu respons (total)58.00s…
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 72.2%Tes tidak stabil: 0…Token output: 2,247Token penalaran: 8,058Waktu respons: rata-rata 3.22s · total 58.00s · maks 11.91s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.12sWaktu respons (maks)3.18sWaktu respons (total)8.50s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.20sWaktu respons (maks)2.20sWaktu respons (total)2.20s
Gabungan
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.00sWaktu respons (maks)3.74sWaktu respons (total)5.99s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)2.36sWaktu respons (maks)3.51sWaktu respons (total)7.07s
Kecerdasan umum
: 4.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.54sWaktu respons (maks)1.54sWaktu respons (total)1.54s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.49sWaktu respons (maks)1.66sWaktu respons (total)2.99s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.76sWaktu respons (maks)5.08sWaktu respons (total)8.27s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.54sWaktu respons (maks)9.54sWaktu respons (total)9.54s
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 3…Token output: 2,735Token penalaran: 52,571Waktu respons: rata-rata 16.17s · total 291.09s · maks 84.22s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.95sWaktu respons (maks)5.12sWaktu respons (total)11.80s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)32.58sWaktu respons (maks)32.58sWaktu respons (total)32.58s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)53.36sWaktu respons (maks)53.36sWaktu respons (total)53.36s
Parsing dan ekstraksi data
: 7.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)18.81sWaktu respons (maks)20.29sWaktu respons (total)37.61s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Waktu respons (rata-rata)37.87sWaktu respons (maks)84.22sWaktu respons (total)113.60s
Kecerdasan umum
: 5.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.27sWaktu respons (maks)4.27sWaktu respons (total)4.27s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.77sWaktu respons (maks)3.21sWaktu respons (total)5.54s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.87sWaktu respons (maks)16.87sWaktu respons (total)16.87s
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.8%Tes tidak stabil: 3…Token output: 2,360Token penalaran: 38,320Waktu respons: rata-rata 12.27s · total 208.56s · maks 64.71s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.06sWaktu respons (maks)4.70sWaktu respons (total)12.23s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)52.12sWaktu respons (maks)52.12sWaktu respons (total)52.12s
Gabungan
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)64.71sWaktu respons (maks)64.71sWaktu respons (total)64.71s
Parsing dan ekstraksi data
: 7.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)17.20sWaktu respons (maks)17.44sWaktu respons (total)34.40s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)6.00sWaktu respons (maks)6.14sWaktu respons (total)12.01s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.06sWaktu respons (maks)4.06sWaktu respons (total)4.06s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.36sWaktu respons (maks)4.35sWaktu respons (total)6.72s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.19sWaktu respons (maks)8.19sWaktu respons (total)8.19s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 1…Token output: 65,057Token penalaran: 0Waktu respons: rata-rata 14.63s · total 248.72s · maks 46.04s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.59sWaktu respons (maks)10.20sWaktu respons (total)26.37s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.37sWaktu respons (maks)31.37sWaktu respons (total)31.37s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.04sWaktu respons (maks)46.04sWaktu respons (total)46.04s
Parsing dan ekstraksi data
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)5.25sWaktu respons (maks)5.25sWaktu respons (total)5.25s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)22.30sWaktu respons (maks)30.51sWaktu respons (total)66.90s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.84sWaktu respons (maks)16.84sWaktu respons (total)16.84s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.16sWaktu respons (maks)7.72sWaktu respons (total)12.31s
Pemecahan teka-teki
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Waktu respons (rata-rata)9.55sWaktu respons (maks)14.35sWaktu respons (total)28.64s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.02sWaktu respons (maks)15.02sWaktu respons (total)15.02s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 2…Token output: 15,928Token penalaran: 44,631Waktu respons: rata-rata 25.03s · total 425.48s · maks 147.47s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.20sWaktu respons (maks)9.64sWaktu respons (total)24.78s
Pemrograman
: 2.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)147.47sWaktu respons (maks)147.47sWaktu respons (total)147.47s
Gabungan
: 9.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)73.55sWaktu respons (maks)73.55sWaktu respons (total)73.55s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.51sWaktu respons (maks)20.57sWaktu respons (total)33.02s
Spesifik domain
: 2.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)23.62sWaktu respons (maks)27.00sWaktu respons (total)47.23s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)29.76sWaktu respons (maks)29.76sWaktu respons (total)29.76s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.54sWaktu respons (maks)21.25sWaktu respons (total)35.08s
Pemecahan teka-teki
: 7.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)8.52sWaktu respons (maks)12.73sWaktu respons (total)25.56s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.01sWaktu respons (maks)9.01sWaktu respons (total)9.01s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)9.81sWaktu respons (maks)31.36sWaktu respons (total)176.62s…
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 2…Token output: 1,568Token penalaran: 91,909Waktu respons: rata-rata 9.81s · total 176.62s · maks 31.36s
Trik anti-AI
: 8.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.16sWaktu respons (maks)3.44sWaktu respons (total)12.65s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.36sWaktu respons (maks)31.36sWaktu respons (total)31.36s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.93sWaktu respons (maks)20.93sWaktu respons (total)20.93s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.01sWaktu respons (maks)4.27sWaktu respons (total)8.02s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)21.33sWaktu respons (maks)24.21sWaktu respons (total)64.00s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.78sWaktu respons (maks)5.78sWaktu respons (total)5.78s
Kepatuhan instruksi
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.97sWaktu respons (maks)6.05sWaktu respons (total)9.94s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.85sWaktu respons (maks)4.53sWaktu respons (total)11.55s
Pemanggilan alat
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.39sWaktu respons (maks)12.39sWaktu respons (total)12.39s
Total Tes: 18Tes Salah: 5Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 1…Token output: 42,068Token penalaran: 26,784Waktu respons: rata-rata 12.66s · total 126.62s · maks 46.35s
Trik anti-AI
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)2.98sWaktu respons (maks)4.95sWaktu respons (total)5.97s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)35.76sWaktu respons (maks)35.76sWaktu respons (total)35.76s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.35sWaktu respons (maks)46.35sWaktu respons (total)46.35s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.90sWaktu respons (maks)13.90sWaktu respons (total)13.90s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.94sWaktu respons (maks)4.94sWaktu respons (total)4.94s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.61sWaktu respons (maks)2.61sWaktu respons (total)2.61s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.80sWaktu respons (maks)5.22sWaktu respons (total)9.60s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.48sWaktu respons (maks)7.48sWaktu respons (total)7.48s
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 79.6%Tes tidak stabil: 4…Token output: 7,554Token penalaran: 45,588Waktu respons: rata-rata 43.49s · total 782.73s · maks 180.92s
Trik anti-AI
: 8.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)30.72sWaktu respons (maks)44.23sWaktu respons (total)122.88s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)180.92sWaktu respons (maks)180.92sWaktu respons (total)180.92s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)93.11sWaktu respons (maks)93.11sWaktu respons (total)93.11s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)36.09sWaktu respons (maks)39.12sWaktu respons (total)72.18s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)21.78sWaktu respons (maks)30.66sWaktu respons (total)65.35s
Kecerdasan umum
: 5.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)31.30sWaktu respons (maks)31.30sWaktu respons (total)31.30s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)35.78sWaktu respons (maks)47.30sWaktu respons (total)71.56s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)36.87sWaktu respons (maks)59.22sWaktu respons (total)110.62s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.81sWaktu respons (maks)34.81sWaktu respons (total)34.81s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.84sWaktu respons (maks)38.52sWaktu respons (total)123.17s…
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 3…Token output: 17,346Token penalaran: 0Waktu respons: rata-rata 6.84s · total 123.17s · maks 38.52s
Trik anti-AI
: 8.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.40sWaktu respons (maks)4.78sWaktu respons (total)13.59s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.97sWaktu respons (maks)8.97sWaktu respons (total)8.97s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.12sWaktu respons (maks)9.12sWaktu respons (total)9.12s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.05sWaktu respons (maks)3.33sWaktu respons (total)6.10s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)17.78sWaktu respons (maks)38.52sWaktu respons (total)53.33s
Kecerdasan umum
: 4.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20s
Kepatuhan instruksi
: 7.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.46sWaktu respons (maks)6.45sWaktu respons (total)10.92s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.42sWaktu respons (maks)5.04sWaktu respons (total)13.27s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.68sWaktu respons (maks)4.68sWaktu respons (total)4.68s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 2Waktu respons (rata-rata)1.30sWaktu respons (maks)3.39sWaktu respons (total)23.42s…
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 70.4%Tes tidak stabil: 1…Token output: 5,361Token penalaran: 0Waktu respons: rata-rata 1.30s · total 23.42s · maks 3.39s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.47sWaktu respons (maks)1.47sWaktu respons (total)1.47s
Gabungan
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.22sWaktu respons (maks)1.33sWaktu respons (total)2.44s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)942msWaktu respons (maks)1.12sWaktu respons (total)2.83s
Kecerdasan umum
: 4.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)741msWaktu respons (maks)741msWaktu respons (total)741ms
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.14sWaktu respons (total)2.27s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)972msWaktu respons (maks)1.13sWaktu respons (total)2.92s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.39sWaktu respons (maks)3.39sWaktu respons (total)3.39s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)26.78sWaktu respons (maks)170.45sWaktu respons (total)294.58s…
Total Tes: 17Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 70.6%Tes tidak stabil: 2…Token output: 71,904Token penalaran: 155,607Waktu respons: rata-rata 26.78s · total 294.58s · maks 170.45s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.56sWaktu respons (maks)32.30sWaktu respons (total)40.68s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)29.57sWaktu respons (maks)29.57sWaktu respons (total)29.57s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.01sWaktu respons (maks)15.01sWaktu respons (total)15.01s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)170.45sWaktu respons (maks)170.45sWaktu respons (total)170.45s
Kecerdasan umum
: 5.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.54sWaktu respons (maks)6.54sWaktu respons (total)6.54s
Kepatuhan instruksi
: 8.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.98sWaktu respons (maks)4.98sWaktu respons (total)4.98s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 3Waktu respons (rata-rata)47.47sWaktu respons (maks)255.28sWaktu respons (total)854.45s…
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 79.6%Tes tidak stabil: 5…Token output: 1,757Token penalaran: 55,907Waktu respons: rata-rata 47.47s · total 854.45s · maks 255.28s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)28.51sWaktu respons (maks)39.73sWaktu respons (total)114.05s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)62.48sWaktu respons (maks)62.48sWaktu respons (total)62.48s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)76.57sWaktu respons (maks)76.57sWaktu respons (total)76.57s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.03sWaktu respons (maks)30.49sWaktu respons (total)56.07s
Spesifik domain
: 4.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)112.69sWaktu respons (maks)255.28sWaktu respons (total)338.07s
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)25.15sWaktu respons (maks)25.15sWaktu respons (total)25.15s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.36sWaktu respons (maks)19.53sWaktu respons (total)30.73s
Pemecahan teka-teki
: 6.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Waktu respons (rata-rata)25.53sWaktu respons (maks)32.37sWaktu respons (total)76.60s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)74.73sWaktu respons (maks)74.73sWaktu respons (total)74.73s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 77.8%Tes tidak stabil: 6…Token output: 2,351Token penalaran: 58,941Waktu respons: rata-rata 14.96s · total 269.32s · maks 67.08s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.78sWaktu respons (maks)13.78sWaktu respons (total)13.78s
Gabungan
: 6.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Pemanggilan alat tidak valid: 1Waktu respons (rata-rata)15.06sWaktu respons (maks)15.06sWaktu respons (total)15.06s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.60sWaktu respons (maks)9.92sWaktu respons (total)19.19s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)38.15sWaktu respons (maks)67.08sWaktu respons (total)114.45s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.09sWaktu respons (maks)11.09sWaktu respons (total)11.09s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.74sWaktu respons (maks)5.23sWaktu respons (total)7.47s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)10.91sWaktu respons (maks)18.97sWaktu respons (total)32.74s
Pemanggilan alat
: 7.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Pemanggilan alat tidak valid: 1Waktu respons (rata-rata)12.53sWaktu respons (maks)12.53sWaktu respons (total)12.53s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 81.5%Tes tidak stabil: 6…Token output: 2,073Token penalaran: 191,899Waktu respons: rata-rata 66.72s · total 1201.03s · maks 234.29s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)59.11sWaktu respons (maks)168.31sWaktu respons (total)236.44s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)45.75sWaktu respons (maks)45.75sWaktu respons (total)45.75s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.78sWaktu respons (maks)17.78sWaktu respons (total)17.78s
Parsing dan ekstraksi data
: 7.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)56.99sWaktu respons (maks)80.14sWaktu respons (total)113.98s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)146.50sWaktu respons (maks)234.29sWaktu respons (total)439.49s
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)40.05sWaktu respons (maks)40.05sWaktu respons (total)40.05s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.49sWaktu respons (maks)111.61sWaktu respons (total)126.98s
Pemecahan teka-teki
: 6.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)56.74sWaktu respons (maks)115.01sWaktu respons (total)170.23s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.33sWaktu respons (maks)10.33sWaktu respons (total)10.33s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kedaluwarsa: 2Kesalahan API: 1Waktu respons (rata-rata)24.13sWaktu respons (maks)118.52sWaktu respons (total)410.25s…
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 75.9%Tes tidak stabil: 3…Token output: 8,005Token penalaran: 49,090Waktu respons: rata-rata 24.13s · total 410.25s · maks 118.52s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.31sWaktu respons (maks)14.20sWaktu respons (total)33.24s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)118.52sWaktu respons (maks)118.52sWaktu respons (total)118.52s
Gabungan
: 9.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.11sWaktu respons (maks)43.11sWaktu respons (total)43.11s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.33sWaktu respons (maks)9.40sWaktu respons (total)18.66s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)29.77sWaktu respons (maks)32.22sWaktu respons (total)89.30s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.95sWaktu respons (maks)20.95sWaktu respons (total)20.95s
Kepatuhan instruksi
: 6.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.47sWaktu respons (maks)10.16sWaktu respons (total)14.94s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)23.85sWaktu respons (maks)33.09sWaktu respons (total)71.54s
Pemanggilan alat
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 3…Token output: 2,840Token penalaran: 116,242Waktu respons: rata-rata 13.71s · total 246.73s · maks 86.93s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.98sWaktu respons (maks)3.76sWaktu respons (total)7.92s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.48sWaktu respons (maks)31.48sWaktu respons (total)31.48s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.86sWaktu respons (maks)16.86sWaktu respons (total)16.86s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Jawaban salah: 1Waktu respons (rata-rata)34.53sWaktu respons (maks)86.93sWaktu respons (total)103.59s
Kecerdasan umum
: 3.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.55sWaktu respons (maks)1.55sWaktu respons (total)1.55s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.80sWaktu respons (maks)1.81sWaktu respons (total)3.60s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)20.60sWaktu respons (maks)57.93sWaktu respons (total)61.79s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.29sWaktu respons (maks)7.29sWaktu respons (total)7.29s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 74.1%Tes tidak stabil: 4…Token output: 80,759Token penalaran: 179,814Waktu respons: rata-rata 45.20s · total 768.37s · maks 215.85s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)106.96sWaktu respons (maks)106.96sWaktu respons (total)106.96s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)40.96sWaktu respons (maks)40.96sWaktu respons (total)40.96s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.38sWaktu respons (maks)22.88sWaktu respons (total)40.76s
Spesifik domain
: 5.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)202.38sWaktu respons (maks)215.85sWaktu respons (total)404.76s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.83sWaktu respons (maks)17.83sWaktu respons (total)17.83s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.53sWaktu respons (maks)19.15sWaktu respons (total)25.06s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.92sWaktu respons (maks)8.92sWaktu respons (total)8.92s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 61.1%Tes tidak stabil: 0…Token output: 928Token penalaran: 72,661Waktu respons: rata-rata 16.76s · total 301.61s · maks 158.78s
Trik anti-AI
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.11sWaktu respons (maks)3.43sWaktu respons (total)8.43s
Pemrograman
: 4.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)68.55sWaktu respons (maks)68.55sWaktu respons (total)68.55s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.29sWaktu respons (maks)19.29sWaktu respons (total)19.29s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.29sWaktu respons (maks)2.62sWaktu respons (total)4.58s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86s
Kepatuhan instruksi
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.92sWaktu respons (maks)7.14sWaktu respons (total)9.83s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.07sWaktu respons (maks)11.07sWaktu respons (total)11.07s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 2Waktu respons (rata-rata)5.88sWaktu respons (maks)18.33sWaktu respons (total)105.90s…
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 68.5%Tes tidak stabil: 3…Token output: 20,784Token penalaran: 0Waktu respons: rata-rata 5.88s · total 105.90s · maks 18.33s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.32sWaktu respons (maks)9.32sWaktu respons (total)9.32s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.21sWaktu respons (maks)2.52sWaktu respons (total)4.42s
Spesifik domain
: 3.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)13.01sWaktu respons (maks)18.33sWaktu respons (total)39.04s
Kecerdasan umum
: 4.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.99sWaktu respons (maks)1.99sWaktu respons (total)1.99s
Kepatuhan instruksi
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.29sWaktu respons (maks)4.18sWaktu respons (total)6.59s
Pemecahan teka-teki
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.93sWaktu respons (maks)3.05sWaktu respons (total)8.78s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.36sWaktu respons (maks)8.36sWaktu respons (total)8.36s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 4Jawaban salah: 2Waktu respons (rata-rata)21.08sWaktu respons (maks)83.40sWaktu respons (total)231.84s…
Total Tes: 18Tes Salah: 6Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 70.4%Tes tidak stabil: 2…Token output: 29,829Token penalaran: 18,938Waktu respons: rata-rata 21.08s · total 231.84s · maks 83.40s
Trik anti-AI
: 6.4 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Waktu respons (rata-rata)7.45sWaktu respons (maks)11.88sWaktu respons (total)14.90s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.11sWaktu respons (maks)23.11sWaktu respons (total)23.11s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)76.66sWaktu respons (maks)76.66sWaktu respons (total)76.66s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.37sWaktu respons (maks)7.37sWaktu respons (total)7.37s
Spesifik domain
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)83.40sWaktu respons (maks)83.40sWaktu respons (total)83.40s
Kecerdasan umum
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.04sWaktu respons (maks)5.04sWaktu respons (total)5.04s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.43sWaktu respons (maks)2.43sWaktu respons (total)2.43s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.60sWaktu respons (maks)4.66sWaktu respons (total)9.20s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.73sWaktu respons (maks)9.73sWaktu respons (total)9.73s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 3Waktu respons (rata-rata)11.21sWaktu respons (maks)94.06sWaktu respons (total)201.80s…
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 68.5%Tes tidak stabil: 2…Token output: 2,946Token penalaran: 58,132Waktu respons: rata-rata 11.21s · total 201.80s · maks 94.06s
Trik anti-AI
: 8.3 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.52sWaktu respons (maks)7.74sWaktu respons (total)18.10s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.41sWaktu respons (maks)13.41sWaktu respons (total)13.41s
Gabungan
: 9.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.13sWaktu respons (maks)24.13sWaktu respons (total)24.13s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.54sWaktu respons (maks)3.33sWaktu respons (total)5.08s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)38.18sWaktu respons (maks)94.06sWaktu respons (total)114.53s
Kecerdasan umum
: 4.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.15sWaktu respons (maks)4.15sWaktu respons (total)4.15s
Kepatuhan instruksi
: 9.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.88sWaktu respons (maks)2.61sWaktu respons (total)3.75s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.71sWaktu respons (maks)7.71sWaktu respons (total)7.71s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 66.7%Tes tidak stabil: 2…Token output: 2,419Token penalaran: 79,238Waktu respons: rata-rata 69.70s · total 1045.47s · maks 262.83s
Trik anti-AI
: 6.6 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)74.75sWaktu respons (maks)182.10sWaktu respons (total)298.98s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)197.31sWaktu respons (maks)197.31sWaktu respons (total)197.31s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)262.83sWaktu respons (maks)262.83sWaktu respons (total)262.83s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.27sWaktu respons (maks)27.52sWaktu respons (total)48.54s
Spesifik domain
: 3.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Kecerdasan umum
: 5.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)36.65sWaktu respons (maks)36.65sWaktu respons (total)36.65s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.47sWaktu respons (maks)19.46sWaktu respons (total)34.93s
Pemecahan teka-teki
: 8.2 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)25.85sWaktu respons (maks)32.95sWaktu respons (total)77.55s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)88.68sWaktu respons (maks)88.68sWaktu respons (total)88.68s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 72.2%Tes tidak stabil: 4…Token output: 2,705Token penalaran: 18,977Waktu respons: rata-rata 14.04s · total 154.41s · maks 77.80s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.12sWaktu respons (maks)15.12sWaktu respons (total)15.12s
Gabungan
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.06sWaktu respons (maks)14.06sWaktu respons (total)14.06s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.15sWaktu respons (maks)3.15sWaktu respons (total)3.15s
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)77.80sWaktu respons (maks)77.80sWaktu respons (total)77.80s
Kecerdasan umum
: 3.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.32sWaktu respons (maks)4.32sWaktu respons (total)4.32s
Kepatuhan instruksi
: 9.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.12sWaktu respons (maks)3.12sWaktu respons (total)3.12s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.47sWaktu respons (maks)6.45sWaktu respons (total)10.94s
Pemanggilan alat
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)10.30sWaktu respons (maks)10.30sWaktu respons (total)10.30s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 70.4%Tes tidak stabil: 3…Token output: 12,387Token penalaran: 115,182Waktu respons: rata-rata 23.36s · total 280.34s · maks 96.01s
Trik anti-AI
: 8.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)15.85sWaktu respons (maks)20.83sWaktu respons (total)47.55s
Pemrograman
: 4.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)13.03sWaktu respons (maks)13.03sWaktu respons (total)13.03s
Gabungan
: 9.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)75.68sWaktu respons (maks)75.68sWaktu respons (total)75.68s
Parsing dan ekstraksi data
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Spesifik domain
: 5.9 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)96.01sWaktu respons (maks)96.01sWaktu respons (total)96.01s
Kecerdasan umum
: 4.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.20sWaktu respons (maks)4.20sWaktu respons (total)4.20s
Kepatuhan instruksi
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.28sWaktu respons (maks)7.37sWaktu respons (total)8.55s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.77sWaktu respons (maks)5.26sWaktu respons (total)7.55s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.78sWaktu respons (maks)27.78sWaktu respons (total)27.78s
Total Tes: 18Tes Salah: 7Keandalan: T/ATelemetri keandalan tidak tersedia atau belum lengkap untuk model ini.Tingkat lulus per percobaan: 64.8%Tes tidak stabil: 1…Token output: 7,433Token penalaran: 0Waktu respons: rata-rata 4.98s · total 54.83s · maks 23.84s
Trik anti-AI
: 4.8 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)2.94sWaktu respons (maks)4.83sWaktu respons (total)5.88s
Pemrograman
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.67sWaktu respons (maks)3.67sWaktu respons (total)3.67s
Gabungan
: 9.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.84sWaktu respons (maks)23.84sWaktu respons (total)23.84s
Parsing dan ekstraksi data
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.43sWaktu respons (maks)3.43sWaktu respons (total)3.43s
Spesifik domain
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.54sWaktu respons (maks)3.54sWaktu respons (total)3.54s
Kecerdasan umum
: 6.1 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.56sWaktu respons (maks)2.56sWaktu respons (total)2.56s
Kepatuhan instruksi
: 6.5 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.96sWaktu respons (maks)1.96sWaktu respons (total)1.96s
Pemecahan teka-teki
: 7.7 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)2.92sWaktu respons (maks)3.33sWaktu respons (total)5.84s
Pemanggilan alat
: 10.0 Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.11sWaktu respons (maks)4.11sWaktu respons (total)4.11s