AI BENCHY
Bandingkan Grafik
โค๏ธ Made by XCS
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

#7

GPT-5.4

OpenAI ยท Rilis: 2026-03-05 ยท openai/gpt-5.4::medium

Skor Rata-rata

8.2

Biaya per hasil

6.533

Konsistensi

8.9

Total Biaya

$0.784

Tes benar

12

Tes dianggap lulus penuh hanya jika semua run-nya lulus.

Tes Salah

3

Tingkat lulus per percobaan: 86.7%

Tes tidak stabil

2

Tes tidak stabil memiliki hasil campuran antar run (setidaknya satu lulus dan satu gagal).

Waktu respons (rata-rata)

21.06s

Waktu respons (maks): 100.41s

Waktu respons (total): 315.95s

Jawaban salah: 2 Tidak mengikuti instruksi: 1

Model teratas berdasarkan skor

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Anti-AI Tricks 10.0 10.0 3/3
Combined 10.0 10.0 1/1
Data parsing and extraction 9.9 10.0 2/2
Domain specific 4.0 7.2 1/3
Instructions following 10.0 10.0 2/2
Puzzle Solving 7.0 7.2 2/3
Tool Calling 10.0 10.0 1/1