Pantau model AI SOTA teratas dengan leaderboard benchmark AI BENCHY—cara mudah untuk melihat model mana yang memimpin saat ini dalam skor, kualitas penalaran, keandalan, dan value. Urutkan berdasarkan: Total Biaya ↑.
Benchmark dihasilkan dari suite pengujian AI BENCHY pada: 2026-03-06Model Dievaluasi: 55
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 3Waktu respons (rata-rata)29.10sWaktu respons (maks)170.45sWaktu respons (total)290.96s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 68.8%Tes tidak stabil: 2…Token output: 71,452Token penalaran: 155,147Waktu respons: rata-rata 29.10s · total 290.96s · maks 170.45s
Tidak mengikuti instruksi: 3Jawaban salah: 3
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.54sWaktu respons (maks)32.30sWaktu respons (total)37.07s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)29.57sWaktu respons (maks)29.57sWaktu respons (total)29.57s
Data parsing and extraction: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.01sWaktu respons (maks)15.01sWaktu respons (total)15.01s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)170.45sWaktu respons (maks)170.45sWaktu respons (total)170.45s
General Intelligence: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.54sWaktu respons (maks)6.54sWaktu respons (total)6.54s
Instructions following: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.98sWaktu respons (maks)4.98sWaktu respons (total)4.98s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)7.72sWaktu respons (maks)10.60sWaktu respons (total)15.44s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2Waktu respons (rata-rata)3.15sWaktu respons (maks)8.91sWaktu respons (total)50.46s…
Total Tes: 16Tes Salah: 11Tingkat lulus per percobaan: 33.3%Tes tidak stabil: 1…Token output: 1,837Token penalaran: 0Waktu respons: rata-rata 3.15s · total 50.46s · maks 8.91s
Jawaban salah: 9Tidak mengikuti instruksi: 2
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)3.59sWaktu respons (maks)8.17sWaktu respons (total)10.78s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.91sWaktu respons (maks)8.91sWaktu respons (total)8.91s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)4.66sWaktu respons (total)6.52s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)877msWaktu respons (maks)894msWaktu respons (total)2.63s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86s
Instructions following: 3.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.09sWaktu respons (maks)1.23sWaktu respons (total)2.19s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.30sWaktu respons (maks)4.81sWaktu respons (total)9.91s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.67sWaktu respons (maks)6.67sWaktu respons (total)6.67s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Kesalahan API: 4Tidak mengikuti instruksi: 2Waktu respons (rata-rata)811msWaktu respons (maks)2.88sWaktu respons (total)11.35s…
Total Tes: 16Tes Salah: 15Tingkat lulus per percobaan: 14.6%Tes tidak stabil: 2…Token output: 1,185Token penalaran: 0Waktu respons: rata-rata 811ms · total 11.35s · maks 2.88s
Jawaban salah: 9Kesalahan API: 4Tidak mengikuti instruksi: 2
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)471msWaktu respons (maks)872msWaktu respons (total)1.41s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Data parsing and extraction: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)714msWaktu respons (maks)987msWaktu respons (total)1.43s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Jawaban salah: 1Waktu respons (rata-rata)287msWaktu respons (maks)334msWaktu respons (total)860ms
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)395msWaktu respons (maks)395msWaktu respons (total)395ms
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.09sWaktu respons (maks)1.90sWaktu respons (total)2.18s
Puzzle Solving: 3.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.69sWaktu respons (maks)2.88sWaktu respons (total)5.08s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2invalid tool call: 1Waktu respons (rata-rata)2.99sWaktu respons (maks)7.05sWaktu respons (total)26.90s…
Total Tes: 16Tes Salah: 12Tingkat lulus per percobaan: 35.4%Tes tidak stabil: 3…Token output: 1,855Token penalaran: 0Waktu respons: rata-rata 2.99s · total 26.90s · maks 7.05s
Jawaban salah: 9Tidak mengikuti instruksi: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)6.59sWaktu respons (maks)6.59sWaktu respons (total)6.59s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)3.22sWaktu respons (maks)3.22sWaktu respons (total)3.22s
Data parsing and extraction: 5.4Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.82sWaktu respons (maks)4.82sWaktu respons (total)4.82s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)744msWaktu respons (maks)744msWaktu respons (total)744ms
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.59sWaktu respons (maks)1.59sWaktu respons (total)1.59s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)888msWaktu respons (maks)888msWaktu respons (total)888ms
Puzzle Solving: 3.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 1Waktu respons (rata-rata)1.00sWaktu respons (maks)1.12sWaktu respons (total)2.00s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.05sWaktu respons (maks)7.05sWaktu respons (total)7.05s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 11Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.07sWaktu respons (maks)7.58sWaktu respons (total)18.60s…
Total Tes: 16Tes Salah: 12Tingkat lulus per percobaan: 25.0%Tes tidak stabil: 0…Token output: 1,594Token penalaran: 0Waktu respons: rata-rata 2.07s · total 18.60s · maks 7.58s
Jawaban salah: 11Tidak mengikuti instruksi: 1
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.83sWaktu respons (maks)1.83sWaktu respons (total)1.83s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.58sWaktu respons (maks)7.58sWaktu respons (total)7.58s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.27sWaktu respons (maks)1.27sWaktu respons (total)1.27s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)637msWaktu respons (maks)637msWaktu respons (total)637ms
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)909msWaktu respons (maks)909msWaktu respons (total)909ms
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.27sWaktu respons (maks)1.27sWaktu respons (total)1.27s
Puzzle Solving: 2.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.30sWaktu respons (maks)1.54sWaktu respons (total)2.60s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.51sWaktu respons (maks)2.51sWaktu respons (total)2.51s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 8Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.54sWaktu respons (maks)13.73sWaktu respons (total)56.70s…
Total Tes: 16Tes Salah: 9Tingkat lulus per percobaan: 45.8%Tes tidak stabil: 1…Token output: 3,774Token penalaran: 0Waktu respons: rata-rata 3.54s · total 56.70s · maks 13.73s
Jawaban salah: 8Tidak mengikuti instruksi: 1
Anti-AI Tricks: 2.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.62sWaktu respons (maks)3.89sWaktu respons (total)4.85s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)6.22sWaktu respons (maks)6.22sWaktu respons (total)6.22s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.57sWaktu respons (maks)1.83sWaktu respons (total)3.14s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)905msWaktu respons (maks)1.10sWaktu respons (total)2.71s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)803msWaktu respons (maks)803msWaktu respons (total)803ms
Instructions following: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)8.81sWaktu respons (maks)13.73sWaktu respons (total)17.61s
Puzzle Solving: 1.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.90sWaktu respons (maks)12.19sWaktu respons (total)17.69s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.67sWaktu respons (maks)3.67sWaktu respons (total)3.67s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 11Tidak mengikuti instruksi: 1Waktu respons (rata-rata)596msWaktu respons (maks)1.27sWaktu respons (total)9.54s…
Total Tes: 16Tes Salah: 12Tingkat lulus per percobaan: 31.3%Tes tidak stabil: 2…Token output: 1,303Token penalaran: 0Waktu respons: rata-rata 596ms · total 9.54s · maks 1.27s
Jawaban salah: 11Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)466msWaktu respons (maks)716msWaktu respons (total)1.40s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)606msWaktu respons (maks)606msWaktu respons (total)606ms
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)667msWaktu respons (maks)819msWaktu respons (total)1.33s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)534msWaktu respons (maks)733msWaktu respons (total)1.60s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)628msWaktu respons (maks)628msWaktu respons (total)628ms
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)551msWaktu respons (maks)622msWaktu respons (total)1.10s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)533msWaktu respons (maks)637msWaktu respons (total)1.60s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.27sWaktu respons (maks)1.27sWaktu respons (total)1.27s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 8Tidak mengikuti instruksi: 5Waktu respons (rata-rata)12.53sWaktu respons (maks)81.80sWaktu respons (total)125.32s…
Total Tes: 16Tes Salah: 13Tingkat lulus per percobaan: 27.1%Tes tidak stabil: 2…Token output: 2,935Token penalaran: 0Waktu respons: rata-rata 12.53s · total 125.32s · maks 81.80s
Jawaban salah: 8Tidak mengikuti instruksi: 5
Anti-AI Tricks: 1.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)15.28sWaktu respons (maks)15.28sWaktu respons (total)15.28s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.28sWaktu respons (maks)4.28sWaktu respons (total)4.28s
Data parsing and extraction: 5.4Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)81.80sWaktu respons (maks)81.80sWaktu respons (total)81.80s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)638msWaktu respons (maks)638msWaktu respons (total)638ms
General Intelligence: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.39sWaktu respons (maks)1.39sWaktu respons (total)1.39s
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)7.34sWaktu respons (maks)13.67sWaktu respons (total)14.68s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 1Waktu respons (rata-rata)2.30sWaktu respons (maks)3.80sWaktu respons (total)4.61s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.64sWaktu respons (maks)2.64sWaktu respons (total)2.64s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 10Format tambahan: 1Tidak mengikuti instruksi: 1Waktu respons (rata-rata)11.68sWaktu respons (maks)45.14sWaktu respons (total)116.76s…
Total Tes: 16Tes Salah: 12Tingkat lulus per percobaan: 25.0%Tes tidak stabil: 0…Token output: 3,026Token penalaran: 0Waktu respons: rata-rata 11.68s · total 116.76s · maks 45.14s
Jawaban salah: 10Format tambahan: 1Tidak mengikuti instruksi: 1
Anti-AI Tricks: 2.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)4.39sWaktu respons (maks)4.39sWaktu respons (total)4.39s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)45.14sWaktu respons (maks)45.14sWaktu respons (total)45.14s
Data parsing and extraction: 5.4Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.32sWaktu respons (maks)1.32sWaktu respons (total)1.32s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)962msWaktu respons (maks)962msWaktu respons (total)962ms
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.34sWaktu respons (maks)1.34sWaktu respons (total)1.34s
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.71sWaktu respons (maks)14.65sWaktu respons (total)15.42s
Puzzle Solving: 1.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)22.86sWaktu respons (maks)42.58sWaktu respons (total)45.73s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.47sWaktu respons (maks)2.47sWaktu respons (total)2.47s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 11Tidak mengikuti instruksi: 2Waktu respons (rata-rata)1.90sWaktu respons (maks)5.51sWaktu respons (total)17.14s…
Total Tes: 16Tes Salah: 13Tingkat lulus per percobaan: 25.0%Tes tidak stabil: 2…Token output: 1,148Token penalaran: 0Waktu respons: rata-rata 1.90s · total 17.14s · maks 5.51s
Jawaban salah: 11Tidak mengikuti instruksi: 2
Anti-AI Tricks: 1.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.73sWaktu respons (maks)1.73sWaktu respons (total)1.73s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.33sWaktu respons (maks)3.33sWaktu respons (total)3.33s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)943msWaktu respons (maks)943msWaktu respons (total)943ms
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.06sWaktu respons (maks)1.06sWaktu respons (total)1.06s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.08sWaktu respons (maks)1.08sWaktu respons (total)1.08s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)923msWaktu respons (maks)923msWaktu respons (total)923ms
Puzzle Solving: 1.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.28sWaktu respons (maks)1.36sWaktu respons (total)2.56s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.51sWaktu respons (maks)5.51sWaktu respons (total)5.51s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 4Waktu respons (rata-rata)16.65sWaktu respons (maks)50.92sWaktu respons (total)149.88s…
Total Tes: 16Tes Salah: 9Tingkat lulus per percobaan: 54.2%Tes tidak stabil: 5…Token output: 13,210Token penalaran: 34,230Waktu respons: rata-rata 16.65s · total 149.88s · maks 50.92s
Jawaban salah: 5Tidak mengikuti instruksi: 4
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)19.76sWaktu respons (maks)19.76sWaktu respons (total)19.76s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.18sWaktu respons (maks)31.18sWaktu respons (total)31.18s
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.98sWaktu respons (maks)1.98sWaktu respons (total)1.98s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)50.92sWaktu respons (maks)50.92sWaktu respons (total)50.92s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)7.90sWaktu respons (maks)7.90sWaktu respons (total)7.90s
Instructions following: 9.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.63sWaktu respons (maks)7.63sWaktu respons (total)7.63s
Puzzle Solving: 1.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 1Waktu respons (rata-rata)11.80sWaktu respons (maks)12.60sWaktu respons (total)23.61s
Tool Calling: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.91sWaktu respons (maks)6.91sWaktu respons (total)6.91s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 1Waktu respons (rata-rata)923msWaktu respons (maks)4.39sWaktu respons (total)14.78s…
Total Tes: 16Tes Salah: 10Tingkat lulus per percobaan: 43.8%Tes tidak stabil: 2…Token output: 1,270Token penalaran: 0Waktu respons: rata-rata 923ms · total 14.78s · maks 4.39s
Jawaban salah: 9Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)668msWaktu respons (maks)844msWaktu respons (total)2.01s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.39sWaktu respons (maks)4.39sWaktu respons (total)4.39s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)652msWaktu respons (maks)660msWaktu respons (total)1.30s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)495msWaktu respons (maks)642msWaktu respons (total)1.49s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)615msWaktu respons (maks)615msWaktu respons (total)615ms
Instructions following: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)672msWaktu respons (maks)785msWaktu respons (total)1.34s
Puzzle Solving: 4.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)576msWaktu respons (maks)700msWaktu respons (total)1.73s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.91sWaktu respons (maks)1.91sWaktu respons (total)1.91s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 8Tidak mengikuti instruksi: 2Waktu respons (rata-rata)4.10sWaktu respons (maks)47.43sWaktu respons (total)65.62s…
Total Tes: 16Tes Salah: 10Tingkat lulus per percobaan: 50.0%Tes tidak stabil: 3…Token output: 3,756Token penalaran: 0Waktu respons: rata-rata 4.10s · total 65.62s · maks 47.43s
Jawaban salah: 8Tidak mengikuti instruksi: 2
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.76sWaktu respons (maks)4.39sWaktu respons (total)5.27s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)47.43sWaktu respons (maks)47.43sWaktu respons (total)47.43s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.16sWaktu respons (maks)1.42sWaktu respons (total)2.33s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)485msWaktu respons (maks)549msWaktu respons (total)1.45s
General Intelligence: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.19sWaktu respons (maks)1.19sWaktu respons (total)1.19s
Instructions following: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)809msWaktu respons (maks)983msWaktu respons (total)1.62s
Puzzle Solving: 1.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.34sWaktu respons (maks)2.25sWaktu respons (total)4.03s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.30sWaktu respons (maks)2.30sWaktu respons (total)2.30s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 2Waktu respons (rata-rata)1.33sWaktu respons (maks)3.39sWaktu respons (total)21.27s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 66.7%Tes tidak stabil: 1…Token output: 4,715Token penalaran: 0Waktu respons: rata-rata 1.33s · total 21.27s · maks 3.39s
Jawaban salah: 4Tidak mengikuti instruksi: 2
Anti-AI Tricks: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.16sWaktu respons (maks)1.47sWaktu respons (total)3.49s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.22sWaktu respons (maks)1.33sWaktu respons (total)2.44s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)942msWaktu respons (maks)1.12sWaktu respons (total)2.83s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)741msWaktu respons (maks)741msWaktu respons (total)741ms
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.14sWaktu respons (total)2.27s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)972msWaktu respons (maks)1.13sWaktu respons (total)2.92s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.39sWaktu respons (maks)3.39sWaktu respons (total)3.39s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 11Waktu respons (rata-rata)11.91sWaktu respons (maks)42.13sWaktu respons (total)107.16s…
Total Tes: 16Tes Salah: 11Tingkat lulus per percobaan: 39.6%Tes tidak stabil: 3…Token output: 2,000Token penalaran: 0Waktu respons: rata-rata 11.91s · total 107.16s · maks 42.13s
Jawaban salah: 11
Anti-AI Tricks: 2.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)11.38sWaktu respons (maks)11.38sWaktu respons (total)11.38s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)19.16sWaktu respons (maks)19.16sWaktu respons (total)19.16s
Data parsing and extraction: 5.4Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)42.13sWaktu respons (maks)42.13sWaktu respons (total)42.13s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)4.38sWaktu respons (maks)4.38sWaktu respons (total)4.38s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.00sWaktu respons (maks)4.00sWaktu respons (total)4.00s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.67sWaktu respons (maks)2.67sWaktu respons (total)2.67s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)4.73sWaktu respons (maks)7.81sWaktu respons (total)9.45s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.99sWaktu respons (maks)13.99sWaktu respons (total)13.99s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 2Waktu respons (rata-rata)1.75sWaktu respons (maks)9.39sWaktu respons (total)28.05s…
Total Tes: 16Tes Salah: 11Tingkat lulus per percobaan: 37.5%Tes tidak stabil: 2…Token output: 3,161Token penalaran: 0Waktu respons: rata-rata 1.75s · total 28.05s · maks 9.39s
Jawaban salah: 9Tidak mengikuti instruksi: 2
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)796msWaktu respons (maks)1.34sWaktu respons (total)2.39s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)9.39sWaktu respons (maks)9.39sWaktu respons (total)9.39s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.43sWaktu respons (maks)1.45sWaktu respons (total)2.86s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)540msWaktu respons (maks)649msWaktu respons (total)1.62s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.51sWaktu respons (maks)2.51sWaktu respons (total)2.51s
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)815msWaktu respons (maks)973msWaktu respons (total)1.63s
Puzzle Solving: 6.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.37sWaktu respons (maks)2.23sWaktu respons (total)4.12s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.54sWaktu respons (maks)3.54sWaktu respons (total)3.54s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 6Format tambahan: 2invalid tool call: 1Waktu respons (rata-rata)12.86sWaktu respons (maks)115.89sWaktu respons (total)205.78s…
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)8.79sWaktu respons (maks)12.26sWaktu respons (total)26.38s
Combined: 8.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)115.89sWaktu respons (maks)115.89sWaktu respons (total)115.89s
Data parsing and extraction: 5.4Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)9.42sWaktu respons (maks)16.20sWaktu respons (total)18.84s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.61sWaktu respons (maks)1.77sWaktu respons (total)4.83s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.86sWaktu respons (maks)2.86sWaktu respons (total)2.86s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.52sWaktu respons (maks)1.99sWaktu respons (total)3.04s
Puzzle Solving: 7.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)7.37sWaktu respons (maks)10.78sWaktu respons (total)22.10s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.85sWaktu respons (maks)11.85sWaktu respons (total)11.85s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 7Waktu respons (rata-rata)2.65sWaktu respons (maks)6.65sWaktu respons (total)26.52s…
Total Tes: 16Tes Salah: 7Tingkat lulus per percobaan: 58.3%Tes tidak stabil: 1…Token output: 2,015Token penalaran: 0Waktu respons: rata-rata 2.65s · total 26.52s · maks 6.65s
Jawaban salah: 7
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)2.74sWaktu respons (maks)2.74sWaktu respons (total)2.74s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)6.65sWaktu respons (maks)6.65sWaktu respons (total)6.65s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.89sWaktu respons (maks)1.89sWaktu respons (total)1.89s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.17sWaktu respons (maks)1.44sWaktu respons (total)2.33s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.26sWaktu respons (maks)2.26sWaktu respons (total)2.26s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.67sWaktu respons (maks)1.67sWaktu respons (total)1.67s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.82sWaktu respons (maks)3.52sWaktu respons (total)5.65s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.33sWaktu respons (maks)3.33sWaktu respons (total)3.33s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 7Waktu respons (rata-rata)4.03sWaktu respons (maks)11.07sWaktu respons (total)36.30s…
Total Tes: 16Tes Salah: 7Tingkat lulus per percobaan: 56.3%Tes tidak stabil: 0…Token output: 1,548Token penalaran: 0Waktu respons: rata-rata 4.03s · total 36.30s · maks 11.07s
Jawaban salah: 7
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)3.39sWaktu respons (maks)3.39sWaktu respons (total)3.39s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.98sWaktu respons (maks)4.98sWaktu respons (total)4.98s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.78sWaktu respons (maks)5.78sWaktu respons (total)5.78s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)2.24sWaktu respons (maks)2.24sWaktu respons (total)2.24s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.27sWaktu respons (maks)3.27sWaktu respons (total)3.27s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.48sWaktu respons (maks)1.48sWaktu respons (total)1.48s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.05sWaktu respons (maks)2.08sWaktu respons (total)4.10s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.07sWaktu respons (maks)11.07sWaktu respons (total)11.07s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Waktu respons (rata-rata)1.75sWaktu respons (maks)3.56sWaktu respons (total)15.71s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 75.0%Tes tidak stabil: 2…Token output: 1,411Token penalaran: 0Waktu respons: rata-rata 1.75s · total 15.71s · maks 3.56s
Jawaban salah: 5
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.59sWaktu respons (maks)1.59sWaktu respons (total)1.59s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.56sWaktu respons (maks)3.56sWaktu respons (total)3.56s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.41sWaktu respons (maks)1.41sWaktu respons (total)1.41s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)963msWaktu respons (maks)963msWaktu respons (total)963ms
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.13sWaktu respons (maks)1.13sWaktu respons (total)1.13s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.58sWaktu respons (maks)1.58sWaktu respons (total)1.58s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.06sWaktu respons (maks)1.06sWaktu respons (total)2.12s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.35sWaktu respons (maks)3.35sWaktu respons (total)3.35s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.36sWaktu respons (maks)11.91sWaktu respons (total)53.84s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 68.8%Tes tidak stabil: 0…Token output: 1,611Token penalaran: 7,272Waktu respons: rata-rata 3.36s · total 53.84s · maks 11.91s
Jawaban salah: 4Tidak mengikuti instruksi: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.18sWaktu respons (maks)3.18sWaktu respons (total)6.53s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)11.91sWaktu respons (maks)11.91sWaktu respons (total)11.91s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.00sWaktu respons (maks)3.74sWaktu respons (total)5.99s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)2.36sWaktu respons (maks)3.51sWaktu respons (total)7.07s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.54sWaktu respons (maks)1.54sWaktu respons (total)1.54s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.49sWaktu respons (maks)1.66sWaktu respons (total)2.99s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.76sWaktu respons (maks)5.08sWaktu respons (total)8.27s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.54sWaktu respons (maks)9.54sWaktu respons (total)9.54s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.72sWaktu respons (maks)46.00sWaktu respons (total)59.46s…
Total Tes: 16Tes Salah: 10Tingkat lulus per percobaan: 39.6%Tes tidak stabil: 1…Token output: 2,679Token penalaran: 0Waktu respons: rata-rata 3.72s · total 59.46s · maks 46.00s
Jawaban salah: 9Tidak mengikuti instruksi: 1
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)927msWaktu respons (maks)1.38sWaktu respons (total)2.78s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)46.00sWaktu respons (maks)46.00sWaktu respons (total)46.00s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.01sWaktu respons (maks)1.06sWaktu respons (total)2.02s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)465msWaktu respons (maks)492msWaktu respons (total)1.39s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.12sWaktu respons (maks)1.12sWaktu respons (total)1.12s
Instructions following: 4.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)585msWaktu respons (maks)715msWaktu respons (total)1.17s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)982msWaktu respons (maks)1.36sWaktu respons (total)2.95s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.04sWaktu respons (maks)2.04sWaktu respons (total)2.04s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 10Kesalahan API: 1Format tambahan: 1Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.97sWaktu respons (maks)19.68sWaktu respons (total)35.60s…
Total Tes: 16Tes Salah: 13Tingkat lulus per percobaan: 29.2%Tes tidak stabil: 4…Token output: 67,790Token penalaran: 0Waktu respons: rata-rata 2.97s · total 35.60s · maks 19.68s
Jawaban salah: 10Kesalahan API: 1Format tambahan: 1Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.36sWaktu respons (maks)2.73sWaktu respons (total)4.07s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.87sWaktu respons (maks)2.87sWaktu respons (total)2.87s
Data parsing and extraction: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Format tambahan: 1Waktu respons (rata-rata)19.68sWaktu respons (maks)19.68sWaktu respons (total)19.68s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)564msWaktu respons (maks)564msWaktu respons (total)564ms
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.67sWaktu respons (maks)1.67sWaktu respons (total)1.67s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)857msWaktu respons (maks)955msWaktu respons (total)1.71s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.38sWaktu respons (maks)1.74sWaktu respons (total)2.75s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.28sWaktu respons (maks)2.28sWaktu respons (total)2.28s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Kedaluwarsa: 1Waktu respons (rata-rata)39.48sWaktu respons (maks)93.11sWaktu respons (total)631.71s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 79.2%Tes tidak stabil: 3…Token output: 7,392Token penalaran: 39,089Waktu respons: rata-rata 39.48s · total 631.71s · maks 93.11s
Jawaban salah: 3Tidak mengikuti instruksi: 1Kedaluwarsa: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)33.39sWaktu respons (maks)44.23sWaktu respons (total)100.18s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)93.11sWaktu respons (maks)93.11sWaktu respons (total)93.11s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)36.09sWaktu respons (maks)39.12sWaktu respons (total)72.18s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)39.32sWaktu respons (maks)79.03sWaktu respons (total)117.95s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)31.30sWaktu respons (maks)31.30sWaktu respons (total)31.30s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)35.78sWaktu respons (maks)47.30sWaktu respons (total)71.56s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)36.87sWaktu respons (maks)59.22sWaktu respons (total)110.62s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.81sWaktu respons (maks)34.81sWaktu respons (total)34.81s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 4Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)65.09sWaktu respons (maks)262.83sWaktu respons (total)846.14s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 68.8%Tes tidak stabil: 2…Token output: 1,965Token penalaran: 58,456Waktu respons: rata-rata 65.09s · total 846.14s · maks 262.83s
Kedaluwarsa: 4Tidak mengikuti instruksi: 1Jawaban salah: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)98.99sWaktu respons (maks)182.10sWaktu respons (total)296.96s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)262.83sWaktu respons (maks)262.83sWaktu respons (total)262.83s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.27sWaktu respons (maks)27.52sWaktu respons (total)48.54s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
General Intelligence: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)36.65sWaktu respons (maks)36.65sWaktu respons (total)36.65s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.47sWaktu respons (maks)19.46sWaktu respons (total)34.93s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)25.85sWaktu respons (maks)32.95sWaktu respons (total)77.55s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)88.68sWaktu respons (maks)88.68sWaktu respons (total)88.68s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kesalahan API: 1Tidak mengikuti instruksi: 1Waktu respons (rata-rata)25.33sWaktu respons (maks)96.01sWaktu respons (total)253.33s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 72.9%Tes tidak stabil: 1…Token output: 11,613Token penalaran: 106,714Waktu respons: rata-rata 25.33s · total 253.33s · maks 96.01s
Jawaban salah: 3Kesalahan API: 1Tidak mengikuti instruksi: 1
Anti-AI Tricks: 9.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)16.79sWaktu respons (maks)20.83sWaktu respons (total)33.57s
Combined: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)75.68sWaktu respons (maks)75.68sWaktu respons (total)75.68s
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)96.01sWaktu respons (maks)96.01sWaktu respons (total)96.01s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.20sWaktu respons (maks)4.20sWaktu respons (total)4.20s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.28sWaktu respons (maks)7.37sWaktu respons (total)8.55s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.77sWaktu respons (maks)5.26sWaktu respons (total)7.55s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)27.78sWaktu respons (maks)27.78sWaktu respons (total)27.78s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 7Tidak mengikuti instruksi: 2Tidak ada jawaban: 2invalid tool call: 1Waktu respons (rata-rata)36.84sWaktu respons (maks)174.55sWaktu respons (total)331.58s…
Total Tes: 16Tes Salah: 12Tingkat lulus per percobaan: 41.7%Tes tidak stabil: 7…Token output: 38,682Token penalaran: 64,952Waktu respons: rata-rata 36.84s · total 331.58s · maks 174.55s
Jawaban salah: 7Tidak mengikuti instruksi: 2Tidak ada jawaban: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)27.09sWaktu respons (maks)27.09sWaktu respons (total)27.09s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)65.57sWaktu respons (maks)65.57sWaktu respons (total)65.57s
Data parsing and extraction: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)1.51sWaktu respons (maks)1.51sWaktu respons (total)1.51s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak ada jawaban: 1Waktu respons (rata-rata)174.55sWaktu respons (maks)174.55sWaktu respons (total)174.55s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)18.14sWaktu respons (maks)18.14sWaktu respons (total)18.14s
Instructions following: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.97sWaktu respons (maks)2.97sWaktu respons (total)2.97s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.90sWaktu respons (maks)22.33sWaktu respons (total)25.80s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.95sWaktu respons (maks)15.95sWaktu respons (total)15.95s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 4Waktu respons (rata-rata)2.36sWaktu respons (maks)14.63sWaktu respons (total)35.39s…
Total Tes: 16Tes Salah: 9Tingkat lulus per percobaan: 54.2%Tes tidak stabil: 3…Token output: 3,708Token penalaran: 45,921Waktu respons: rata-rata 2.36s · total 35.39s · maks 14.63s
Jawaban salah: 5Tidak mengikuti instruksi: 4
Anti-AI Tricks: 7.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.30sWaktu respons (maks)2.46sWaktu respons (total)3.89s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.28sWaktu respons (maks)3.28sWaktu respons (total)3.28s
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.11sWaktu respons (maks)1.47sWaktu respons (total)2.21s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)6.48sWaktu respons (maks)14.63sWaktu respons (total)19.43s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)821msWaktu respons (maks)821msWaktu respons (total)821ms
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.07sWaktu respons (maks)1.07sWaktu respons (total)1.07s
Puzzle Solving: 1.7Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 1Waktu respons (rata-rata)934msWaktu respons (maks)1.18sWaktu respons (total)2.80s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.89sWaktu respons (maks)1.89sWaktu respons (total)1.89s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.83sWaktu respons (maks)14.93sWaktu respons (total)61.25s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 68.8%Tes tidak stabil: 0…Token output: 1,731Token penalaran: 25,821Waktu respons: rata-rata 3.83s · total 61.25s · maks 14.93s
Jawaban salah: 4Tidak mengikuti instruksi: 1
Anti-AI Tricks: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.53sWaktu respons (maks)3.89sWaktu respons (total)7.58s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.93sWaktu respons (maks)14.93sWaktu respons (total)14.93s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.29sWaktu respons (maks)2.31sWaktu respons (total)4.59s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)4.21sWaktu respons (maks)5.86sWaktu respons (total)12.62s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.16sWaktu respons (maks)3.16sWaktu respons (total)3.16s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.91sWaktu respons (maks)1.93sWaktu respons (total)3.82s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.58sWaktu respons (maks)4.41sWaktu respons (total)10.75s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.80sWaktu respons (maks)3.80sWaktu respons (total)3.80s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Jawaban salah: 2Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)26.35sWaktu respons (maks)121.79sWaktu respons (total)237.11s…
Total Tes: 16Tes Salah: 7Tingkat lulus per percobaan: 66.7%Tes tidak stabil: 4…Token output: 1,183Token penalaran: 83,875Waktu respons: rata-rata 26.35s · total 237.11s · maks 121.79s
Tidak mengikuti instruksi: 3Jawaban salah: 2Tidak ada jawaban: 1Kedaluwarsa: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.65sWaktu respons (maks)5.65sWaktu respons (total)5.65s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)37.64sWaktu respons (maks)37.64sWaktu respons (total)37.64s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.63sWaktu respons (maks)6.63sWaktu respons (total)6.63s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)121.79sWaktu respons (maks)121.79sWaktu respons (total)121.79s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)16.25sWaktu respons (maks)16.25sWaktu respons (total)16.25s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.30sWaktu respons (maks)5.30sWaktu respons (total)5.30s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)8.08sWaktu respons (maks)8.38sWaktu respons (total)16.17s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)27.71sWaktu respons (maks)27.71sWaktu respons (total)27.71s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 3Kedaluwarsa: 1Waktu respons (rata-rata)47.94sWaktu respons (maks)204.02sWaktu respons (total)431.47s…
Total Tes: 16Tes Salah: 9Tingkat lulus per percobaan: 60.4%Tes tidak stabil: 6…Token output: 4,386Token penalaran: 142,080Waktu respons: rata-rata 47.94s · total 431.47s · maks 204.02s
Jawaban salah: 5Tidak mengikuti instruksi: 3Kedaluwarsa: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)37.73sWaktu respons (maks)37.73sWaktu respons (total)37.73s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)65.96sWaktu respons (maks)65.96sWaktu respons (total)65.96s
Data parsing and extraction: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)21.42sWaktu respons (maks)21.42sWaktu respons (total)21.42s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)204.02sWaktu respons (maks)204.02sWaktu respons (total)204.02s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)17.51sWaktu respons (maks)17.51sWaktu respons (total)17.51s
Instructions following: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)11.90sWaktu respons (maks)11.90sWaktu respons (total)11.90s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)19.81sWaktu respons (maks)21.31sWaktu respons (total)39.63s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)33.30sWaktu respons (maks)33.30sWaktu respons (total)33.30s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 3Kesalahan API: 1Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)70.81sWaktu respons (maks)234.29sWaktu respons (total)1132.90s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 81.3%Tes tidak stabil: 5…Token output: 1,807Token penalaran: 169,952Waktu respons: rata-rata 70.81s · total 1132.90s · maks 234.29s
Kedaluwarsa: 3Kesalahan API: 1Tidak mengikuti instruksi: 1Jawaban salah: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.35sWaktu respons (maks)168.31sWaktu respons (total)214.06s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.78sWaktu respons (maks)17.78sWaktu respons (total)17.78s
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)56.99sWaktu respons (maks)80.14sWaktu respons (total)113.98s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)146.50sWaktu respons (maks)234.29sWaktu respons (total)439.49s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)40.05sWaktu respons (maks)40.05sWaktu respons (total)40.05s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)63.49sWaktu respons (maks)111.61sWaktu respons (total)126.98s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Waktu respons (rata-rata)56.74sWaktu respons (maks)115.01sWaktu respons (total)170.23s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.33sWaktu respons (maks)10.33sWaktu respons (total)10.33s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)6.11sWaktu respons (maks)14.72sWaktu respons (total)97.74s…
Total Tes: 16Tes Salah: 3Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 1…Token output: 1,586Token penalaran: 19,950Waktu respons: rata-rata 6.11s · total 97.74s · maks 14.72s
Jawaban salah: 3
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.50sWaktu respons (maks)4.31sWaktu respons (total)10.49s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.27sWaktu respons (maks)3.27sWaktu respons (total)3.27s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.40sWaktu respons (maks)14.72sWaktu respons (total)18.80s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)8.05sWaktu respons (maks)14.40sWaktu respons (total)24.15s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.68sWaktu respons (maks)3.68sWaktu respons (total)3.68s
Instructions following: 9.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.02sWaktu respons (maks)7.35sWaktu respons (total)14.03s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.11sWaktu respons (maks)10.27sWaktu respons (total)18.32s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.99sWaktu respons (maks)4.99sWaktu respons (total)4.99s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 9Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.48sWaktu respons (maks)2.89sWaktu respons (total)23.64s…
Total Tes: 16Tes Salah: 10Tingkat lulus per percobaan: 41.7%Tes tidak stabil: 2…Token output: 1,819Token penalaran: 0Waktu respons: rata-rata 1.48s · total 23.64s · maks 2.89s
Jawaban salah: 9Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)1.41sWaktu respons (maks)2.58sWaktu respons (total)4.23s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)2.89sWaktu respons (maks)2.89sWaktu respons (total)2.89s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)1.04sWaktu respons (maks)1.06sWaktu respons (total)2.08s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)1.07sWaktu respons (maks)1.54sWaktu respons (total)3.22s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.78sWaktu respons (maks)1.78sWaktu respons (total)1.78s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.07sWaktu respons (maks)1.17sWaktu respons (total)2.15s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)1.52sWaktu respons (maks)1.82sWaktu respons (total)4.56s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.75sWaktu respons (maks)2.75sWaktu respons (total)2.75s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Tidak mengikuti instruksi: 1Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)16.16sWaktu respons (maks)28.96sWaktu respons (total)129.26s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 4…Token output: 19,773Token penalaran: 36,459Waktu respons: rata-rata 16.16s · total 129.26s · maks 28.96s
Jawaban salah: 2Tidak mengikuti instruksi: 1Tidak ada jawaban: 1Kedaluwarsa: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)22.26sWaktu respons (maks)22.26sWaktu respons (total)22.26s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.96sWaktu respons (maks)28.96sWaktu respons (total)28.96s
Data parsing and extraction: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)8.90sWaktu respons (maks)8.90sWaktu respons (total)8.90s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.69sWaktu respons (maks)14.69sWaktu respons (total)14.69s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.25sWaktu respons (maks)7.25sWaktu respons (total)7.25s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.64sWaktu respons (maks)16.34sWaktu respons (total)31.27s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.93sWaktu respons (maks)15.93sWaktu respons (total)15.93s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 4Jawaban salah: 3Kedaluwarsa: 1Waktu respons (rata-rata)25.14sWaktu respons (maks)88.15sWaktu respons (total)402.29s…
Total Tes: 16Tes Salah: 8Tingkat lulus per percobaan: 58.3%Tes tidak stabil: 2…Token output: 5,826Token penalaran: 48,768Waktu respons: rata-rata 25.14s · total 402.29s · maks 88.15s
Tidak mengikuti instruksi: 4Jawaban salah: 3Kedaluwarsa: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)16.45sWaktu respons (maks)26.00sWaktu respons (total)49.36s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)88.15sWaktu respons (maks)88.15sWaktu respons (total)88.15s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.58sWaktu respons (maks)13.87sWaktu respons (total)25.16s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)44.63sWaktu respons (maks)82.55sWaktu respons (total)133.89s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)13.50sWaktu respons (maks)13.50sWaktu respons (total)13.50s
Instructions following: 7.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)15.66sWaktu respons (maks)21.80sWaktu respons (total)31.32s
Puzzle Solving: 4.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)14.09sWaktu respons (maks)16.81sWaktu respons (total)42.28s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)18.64sWaktu respons (maks)18.64sWaktu respons (total)18.64s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)12.36sWaktu respons (maks)50.16sWaktu respons (total)111.21s…
Total Tes: 16Tes Salah: 0Tingkat lulus per percobaan: 100.0%Tes tidak stabil: 0…Token output: 1,634Token penalaran: 47,907Waktu respons: rata-rata 12.36s · total 111.21s · maks 50.16s
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.61sWaktu respons (maks)5.61sWaktu respons (total)5.61s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)50.16sWaktu respons (maks)50.16sWaktu respons (total)50.16s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.72sWaktu respons (maks)4.72sWaktu respons (total)4.72s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.12sWaktu respons (maks)21.12sWaktu respons (total)21.12s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.09sWaktu respons (maks)4.09sWaktu respons (total)4.09s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.10sWaktu respons (maks)6.10sWaktu respons (total)6.10s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.43sWaktu respons (maks)4.68sWaktu respons (total)8.85s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.55sWaktu respons (maks)10.55sWaktu respons (total)10.55s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Jawaban salah: 1Waktu respons (rata-rata)34.45sWaktu respons (maks)79.86sWaktu respons (total)310.09s…
Total Tes: 16Tes Salah: 3Tingkat lulus per percobaan: 85.4%Tes tidak stabil: 1…Token output: 1,735Token penalaran: 77,212Waktu respons: rata-rata 34.45s · total 310.09s · maks 79.86s
Kedaluwarsa: 2Jawaban salah: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.37sWaktu respons (maks)10.37sWaktu respons (total)10.37s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.85sWaktu respons (maks)46.85sWaktu respons (total)46.85s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.91sWaktu respons (maks)46.91sWaktu respons (total)46.91s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)17.50sWaktu respons (maks)17.50sWaktu respons (total)17.50s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)79.86sWaktu respons (maks)79.86sWaktu respons (total)79.86s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.93sWaktu respons (maks)31.93sWaktu respons (total)31.93s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)34.57sWaktu respons (maks)49.12sWaktu respons (total)69.13s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.54sWaktu respons (maks)7.54sWaktu respons (total)7.54s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)7.15sWaktu respons (maks)11.96sWaktu respons (total)64.34s…
Total Tes: 16Tes Salah: 3Tingkat lulus per percobaan: 81.3%Tes tidak stabil: 0…Token output: 1,502Token penalaran: 9,706Waktu respons: rata-rata 7.15s · total 64.34s · maks 11.96s
Jawaban salah: 3
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.75sWaktu respons (maks)3.75sWaktu respons (total)3.75s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)10.37sWaktu respons (maks)10.37sWaktu respons (total)10.37s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)10.84sWaktu respons (maks)10.84sWaktu respons (total)10.84s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.01sWaktu respons (maks)7.01sWaktu respons (total)7.01s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.34sWaktu respons (maks)9.34sWaktu respons (total)9.34s
Instructions following: 9.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.26sWaktu respons (maks)3.26sWaktu respons (total)3.26s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.91sWaktu respons (maks)4.23sWaktu respons (total)7.81s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 2Tidak ada jawaban: 1Kedaluwarsa: 1Waktu respons (rata-rata)69.83sWaktu respons (maks)137.29sWaktu respons (total)628.45s…
Total Tes: 16Tes Salah: 7Tingkat lulus per percobaan: 72.9%Tes tidak stabil: 5…Token output: 38,453Token penalaran: 72,496Waktu respons: rata-rata 69.83s · total 628.45s · maks 137.29s
Jawaban salah: 3Tidak mengikuti instruksi: 2Tidak ada jawaban: 1Kedaluwarsa: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)85.28sWaktu respons (maks)85.28sWaktu respons (total)85.28s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)71.37sWaktu respons (maks)71.37sWaktu respons (total)71.37s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)49.78sWaktu respons (maks)49.78sWaktu respons (total)49.78s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)137.29sWaktu respons (maks)137.29sWaktu respons (total)137.29s
General Intelligence: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)69.73sWaktu respons (maks)69.73sWaktu respons (total)69.73s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)92.47sWaktu respons (maks)92.47sWaktu respons (total)92.47s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Jawaban salah: 1Waktu respons (rata-rata)45.40sWaktu respons (maks)82.75sWaktu respons (total)90.79s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)31.74sWaktu respons (maks)31.74sWaktu respons (total)31.74s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 5Tidak mengikuti instruksi: 3Kedaluwarsa: 2invalid tool call: 1Waktu respons (rata-rata)43.03sWaktu respons (maks)237.27sWaktu respons (total)387.25s…
Total Tes: 16Tes Salah: 11Tingkat lulus per percobaan: 60.4%Tes tidak stabil: 9…Token output: 107,044Token penalaran: 206,190Waktu respons: rata-rata 43.03s · total 387.25s · maks 237.27s
Jawaban salah: 5Tidak mengikuti instruksi: 3Kedaluwarsa: 2common.failureReasons.invalid_tool_call: 1
Anti-AI Tricks: 9.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)32.42sWaktu respons (maks)32.42sWaktu respons (total)32.42s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.invalid tool call: 1Waktu respons (rata-rata)60.39sWaktu respons (maks)60.39sWaktu respons (total)60.39s
Data parsing and extraction: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)7.48sWaktu respons (maks)7.48sWaktu respons (total)7.48s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Kedaluwarsa: 1Waktu respons (rata-rata)237.27sWaktu respons (maks)237.27sWaktu respons (total)237.27s
General Intelligence: 3.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)6.63sWaktu respons (maks)6.63sWaktu respons (total)6.63s
Instructions following: 8.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.64sWaktu respons (maks)4.64sWaktu respons (total)4.64s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)11.54sWaktu respons (maks)17.37sWaktu respons (total)23.08s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)15.35sWaktu respons (maks)15.35sWaktu respons (total)15.35s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 3Jawaban salah: 2Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.57sWaktu respons (maks)23.84sWaktu respons (total)50.12s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 66.7%Tes tidak stabil: 1…Token output: 6,895Token penalaran: 0Waktu respons: rata-rata 5.57s · total 50.12s · maks 23.84s
Format tambahan: 3Jawaban salah: 2Tidak mengikuti instruksi: 1
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Waktu respons (rata-rata)4.83sWaktu respons (maks)4.83sWaktu respons (total)4.83s
Combined: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.84sWaktu respons (maks)23.84sWaktu respons (total)23.84s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.43sWaktu respons (maks)3.43sWaktu respons (total)3.43s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.54sWaktu respons (maks)3.54sWaktu respons (total)3.54s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)2.56sWaktu respons (maks)2.56sWaktu respons (total)2.56s
Instructions following: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)1.96sWaktu respons (maks)1.96sWaktu respons (total)1.96s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)2.92sWaktu respons (maks)3.33sWaktu respons (total)5.84s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.11sWaktu respons (maks)4.11sWaktu respons (total)4.11s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)7.03sWaktu respons (maks)38.52sWaktu respons (total)112.51s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 75.0%Tes tidak stabil: 2…Token output: 15,845Token penalaran: 0Waktu respons: rata-rata 7.03s · total 112.51s · maks 38.52s
Jawaban salah: 4Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.97sWaktu respons (maks)4.78sWaktu respons (total)11.90s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.12sWaktu respons (maks)9.12sWaktu respons (total)9.12s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.05sWaktu respons (maks)3.33sWaktu respons (total)6.10s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)17.78sWaktu respons (maks)38.52sWaktu respons (total)53.33s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)3.20sWaktu respons (maks)3.20sWaktu respons (total)3.20s
Instructions following: 6.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)5.46sWaktu respons (maks)6.45sWaktu respons (total)10.92s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.42sWaktu respons (maks)5.04sWaktu respons (total)13.27s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.68sWaktu respons (maks)4.68sWaktu respons (total)4.68s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 1Waktu respons (rata-rata)12.35sWaktu respons (maks)95.48sWaktu respons (total)197.62s…
Total Tes: 16Tes Salah: 5Tingkat lulus per percobaan: 72.9%Tes tidak stabil: 1…Token output: 1,370Token penalaran: 110,522Waktu respons: rata-rata 12.35s · total 197.62s · maks 95.48s
Jawaban salah: 4Tidak mengikuti instruksi: 1
Anti-AI Tricks: 7.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)6.98sWaktu respons (maks)15.56sWaktu respons (total)20.95s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)28.44sWaktu respons (maks)28.44sWaktu respons (total)28.44s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.06sWaktu respons (maks)5.06sWaktu respons (total)8.11s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)37.34sWaktu respons (maks)95.48sWaktu respons (total)112.01s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.86sWaktu respons (maks)4.86sWaktu respons (total)4.86s
Instructions following: 9.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.62sWaktu respons (maks)2.78sWaktu respons (total)5.24s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.94sWaktu respons (maks)6.33sWaktu respons (total)11.83s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.20sWaktu respons (maks)6.20sWaktu respons (total)6.20s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 3Tidak ada jawaban: 1Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)15.33sWaktu respons (maks)77.80sWaktu respons (total)138.01s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 75.0%Tes tidak stabil: 4…Token output: 2,220Token penalaran: 16,811Waktu respons: rata-rata 15.33s · total 138.01s · maks 77.80s
Tidak mengikuti instruksi: 3Tidak ada jawaban: 1Kedaluwarsa: 1Jawaban salah: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)14.34sWaktu respons (maks)14.34sWaktu respons (total)14.34s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)14.06sWaktu respons (maks)14.06sWaktu respons (total)14.06s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.15sWaktu respons (maks)3.15sWaktu respons (total)3.15s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)77.80sWaktu respons (maks)77.80sWaktu respons (total)77.80s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.32sWaktu respons (maks)4.32sWaktu respons (total)4.32s
Instructions following: 9.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.12sWaktu respons (maks)3.12sWaktu respons (total)3.12s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.47sWaktu respons (maks)6.45sWaktu respons (total)10.94s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)10.30sWaktu respons (maks)10.30sWaktu respons (total)10.30s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 4Tidak mengikuti instruksi: 2Waktu respons (rata-rata)5.96sWaktu respons (maks)18.33sWaktu respons (total)95.30s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 70.8%Tes tidak stabil: 3…Token output: 19,272Token penalaran: 0Waktu respons: rata-rata 5.96s · total 95.30s · maks 18.33s
Jawaban salah: 4Tidak mengikuti instruksi: 2
Anti-AI Tricks: 7.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.72sWaktu respons (maks)7.35sWaktu respons (total)14.17s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.96sWaktu respons (maks)11.96sWaktu respons (total)11.96s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.21sWaktu respons (maks)2.52sWaktu respons (total)4.42s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)13.01sWaktu respons (maks)18.33sWaktu respons (total)39.04s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)1.99sWaktu respons (maks)1.99sWaktu respons (total)1.99s
Instructions following: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)3.29sWaktu respons (maks)4.18sWaktu respons (total)6.59s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.93sWaktu respons (maks)3.05sWaktu respons (total)8.78s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)8.36sWaktu respons (maks)8.36sWaktu respons (total)8.36s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 4Jawaban salah: 2Kesalahan API: 1Tidak ada jawaban: 1Waktu respons (rata-rata)43.93sWaktu respons (maks)106.00sWaktu respons (total)702.85s…
Total Tes: 16Tes Salah: 8Tingkat lulus per percobaan: 77.1%Tes tidak stabil: 7…Token output: 5,495Token penalaran: 169,266Waktu respons: rata-rata 43.93s · total 702.85s · maks 106.00s
Kedaluwarsa: 4Jawaban salah: 2Kesalahan API: 1Tidak ada jawaban: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)21.75sWaktu respons (maks)34.96sWaktu respons (total)65.26s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban: 1Waktu respons (rata-rata)75.34sWaktu respons (maks)75.34sWaktu respons (total)75.34s
Data parsing and extraction: 5.5Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kesalahan API: 1Waktu respons (rata-rata)59.33sWaktu respons (maks)97.12sWaktu respons (total)118.65s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 2Jawaban salah: 1Waktu respons (rata-rata)88.34sWaktu respons (maks)106.00sWaktu respons (total)265.01s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)30.30sWaktu respons (maks)30.30sWaktu respons (total)30.30s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)24.45sWaktu respons (maks)43.36sWaktu respons (total)48.89s
Puzzle Solving: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)31.58sWaktu respons (maks)60.18sWaktu respons (total)94.75s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.65sWaktu respons (maks)4.65sWaktu respons (total)4.65s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)52.13sWaktu respons (maks)163.96sWaktu respons (total)834.16s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 81.3%Tes tidak stabil: 2…Token output: 1,658Token penalaran: 200,786Waktu respons: rata-rata 52.13s · total 834.16s · maks 163.96s
Tidak mengikuti instruksi: 2Kedaluwarsa: 1Jawaban salah: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.69sWaktu respons (maks)10.84sWaktu respons (total)29.06s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)163.96sWaktu respons (maks)163.96sWaktu respons (total)163.96s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)30.26sWaktu respons (maks)32.03sWaktu respons (total)60.52s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)79.53sWaktu respons (maks)95.52sWaktu respons (total)238.59s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)101.41sWaktu respons (maks)101.41sWaktu respons (total)101.41s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.66sWaktu respons (maks)32.25sWaktu respons (total)39.32s
Puzzle Solving: 8.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)64.61sWaktu respons (maks)123.57sWaktu respons (total)193.84s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.45sWaktu respons (maks)7.45sWaktu respons (total)7.45s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Kedaluwarsa: 1Waktu respons (rata-rata)29.74sWaktu respons (maks)119.29sWaktu respons (total)475.83s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 79.2%Tes tidak stabil: 2…Token output: 17,292Token penalaran: 145,625Waktu respons: rata-rata 29.74s · total 475.83s · maks 119.29s
Jawaban salah: 3Kedaluwarsa: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.99sWaktu respons (maks)11.62sWaktu respons (total)20.98s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)107.79sWaktu respons (maks)107.79sWaktu respons (total)107.79s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.41sWaktu respons (maks)29.79sWaktu respons (total)46.83s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Waktu respons (rata-rata)63.40sWaktu respons (maks)119.29sWaktu respons (total)190.20s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Kedaluwarsa: 1Waktu respons (rata-rata)34.11sWaktu respons (maks)34.11sWaktu respons (total)34.11s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.88sWaktu respons (maks)15.44sWaktu respons (total)19.76s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)17.18sWaktu respons (maks)31.99sWaktu respons (total)51.55s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.60sWaktu respons (maks)4.60sWaktu respons (total)4.60s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)16.60sWaktu respons (maks)40.61sWaktu respons (total)149.36s…
Total Tes: 16Tes Salah: 1Tingkat lulus per percobaan: 93.8%Tes tidak stabil: 0…Token output: 1,521Token penalaran: 35,656Waktu respons: rata-rata 16.60s · total 149.36s · maks 40.61s
Jawaban salah: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.52sWaktu respons (maks)9.52sWaktu respons (total)9.52s
Combined: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)40.61sWaktu respons (maks)40.61sWaktu respons (total)40.61s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.72sWaktu respons (maks)7.72sWaktu respons (total)7.72s
Domain specific: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)32.73sWaktu respons (maks)32.73sWaktu respons (total)32.73s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)11.77sWaktu respons (maks)11.77sWaktu respons (total)11.77s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.56sWaktu respons (maks)9.56sWaktu respons (total)9.56s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.15sWaktu respons (maks)8.49sWaktu respons (total)14.30s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)23.15sWaktu respons (maks)23.15sWaktu respons (total)23.15s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 2Waktu respons (rata-rata)16.59sWaktu respons (maks)100.93sWaktu respons (total)265.39s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 2…Token output: 1,764Token penalaran: 33,348Waktu respons: rata-rata 16.59s · total 265.39s · maks 100.93s
Tidak mengikuti instruksi: 2Jawaban salah: 2
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.69sWaktu respons (maks)6.68sWaktu respons (total)14.06s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)19.56sWaktu respons (maks)19.56sWaktu respons (total)19.56s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.07sWaktu respons (maks)3.59sWaktu respons (total)6.15s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)64.31sWaktu respons (maks)100.93sWaktu respons (total)192.94s
General Intelligence: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.87sWaktu respons (maks)4.87sWaktu respons (total)4.87s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.04sWaktu respons (maks)3.44sWaktu respons (total)6.07s
Puzzle Solving: 9.3Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)5.12sWaktu respons (maks)8.73sWaktu respons (total)15.37s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)6.37sWaktu respons (maks)6.37sWaktu respons (total)6.37s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 2Jawaban salah: 2Waktu respons (rata-rata)20.05sWaktu respons (maks)100.41sWaktu respons (total)320.87s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 83.3%Tes tidak stabil: 3…Token output: 1,756Token penalaran: 46,642Waktu respons: rata-rata 20.05s · total 320.87s · maks 100.41s
Tidak mengikuti instruksi: 2Jawaban salah: 2
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.02sWaktu respons (maks)6.42sWaktu respons (total)15.06s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)20.57sWaktu respons (maks)20.57sWaktu respons (total)20.57s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.32sWaktu respons (maks)5.40sWaktu respons (total)10.64s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)74.27sWaktu respons (maks)100.41sWaktu respons (total)222.80s
General Intelligence: 5.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)4.92sWaktu respons (maks)4.92sWaktu respons (total)4.92s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)3.11sWaktu respons (maks)3.68sWaktu respons (total)6.22s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)9.13sWaktu respons (maks)18.14sWaktu respons (total)27.39s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.28sWaktu respons (maks)13.28sWaktu respons (total)13.28s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)11.23sWaktu respons (maks)46.35sWaktu respons (total)89.84s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 77.1%Tes tidak stabil: 1…Token output: 35,159Token penalaran: 24,687Waktu respons: rata-rata 11.23s · total 89.84s · maks 46.35s
Format tambahan: 2Kedaluwarsa: 1Jawaban salah: 1
Anti-AI Tricks: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Waktu respons (rata-rata)4.95sWaktu respons (maks)4.95sWaktu respons (total)4.95s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)46.35sWaktu respons (maks)46.35sWaktu respons (total)46.35s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)13.90sWaktu respons (maks)13.90sWaktu respons (total)13.90s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 1Kedaluwarsa: 1Jawaban salah: 1Waktu respons (rata-rata)0msWaktu respons (maks)0msWaktu respons (total)0ms
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.94sWaktu respons (maks)4.94sWaktu respons (total)4.94s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.61sWaktu respons (maks)2.61sWaktu respons (total)2.61s
Puzzle Solving: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)4.80sWaktu respons (maks)5.22sWaktu respons (total)9.60s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.48sWaktu respons (maks)7.48sWaktu respons (total)7.48s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 4Jawaban salah: 2Waktu respons (rata-rata)22.86sWaktu respons (maks)83.40sWaktu respons (total)205.71s…
Total Tes: 16Tes Salah: 6Tingkat lulus per percobaan: 66.7%Tes tidak stabil: 2…Token output: 26,254Token penalaran: 17,363Waktu respons: rata-rata 22.86s · total 205.71s · maks 83.40s
Format tambahan: 4Jawaban salah: 2
Anti-AI Tricks: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Waktu respons (rata-rata)11.88sWaktu respons (maks)11.88sWaktu respons (total)11.88s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)76.66sWaktu respons (maks)76.66sWaktu respons (total)76.66s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.37sWaktu respons (maks)7.37sWaktu respons (total)7.37s
Domain specific: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Format tambahan: 2Jawaban salah: 1Waktu respons (rata-rata)83.40sWaktu respons (maks)83.40sWaktu respons (total)83.40s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.04sWaktu respons (maks)5.04sWaktu respons (total)5.04s
Instructions following: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)2.43sWaktu respons (maks)2.43sWaktu respons (total)2.43s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)4.60sWaktu respons (maks)4.66sWaktu respons (total)9.20s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)9.73sWaktu respons (maks)9.73sWaktu respons (total)9.73s
Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 3Tidak mengikuti instruksi: 1Waktu respons (rata-rata)68.83sWaktu respons (maks)280.52sWaktu respons (total)1101.32s…
Total Tes: 16Tes Salah: 4Tingkat lulus per percobaan: 77.1%Tes tidak stabil: 1…Token output: 1,283Token penalaran: 1,533,310Waktu respons: rata-rata 68.83s · total 1101.32s · maks 280.52s
Jawaban salah: 3Tidak mengikuti instruksi: 1
Anti-AI Tricks: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)43.87sWaktu respons (maks)121.88sWaktu respons (total)131.62s
Combined: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)280.52sWaktu respons (maks)280.52sWaktu respons (total)280.52s
Data parsing and extraction: 9.9Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.16sWaktu respons (maks)8.54sWaktu respons (total)14.31s
Domain specific: 4.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 2Waktu respons (rata-rata)127.58sWaktu respons (maks)133.93sWaktu respons (total)382.74s
General Intelligence: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)5.25sWaktu respons (maks)5.25sWaktu respons (total)5.25s
Instructions following: 9.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak mengikuti instruksi: 1Waktu respons (rata-rata)70.07sWaktu respons (maks)136.53sWaktu respons (total)140.14s
Puzzle Solving: 7.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Jawaban salah: 1Waktu respons (rata-rata)46.33sWaktu respons (maks)134.22sWaktu respons (total)139.00s
Tool Calling: 10.0Tes dianggap lulus penuh hanya jika semua run-nya lulus.Tidak ada jawaban gagal.Waktu respons (rata-rata)7.73sWaktu respons (maks)7.73sWaktu respons (total)7.73s