AI BENCHY
Bandingkan Grafik
โค๏ธ Made by XCS
Your ad here

#44

GPT-5.4

OpenAI ยท Rilis: 2026-03-05 ยท openai/gpt-5.4::none

Skor Rata-rata

46

Biaya per hasil

1.496

Konsistensi

89

Total Biaya

$0.090

Tes benar

6

Tes dianggap lulus penuh hanya jika semua run-nya lulus.

Tes Salah

9

Tingkat lulus per percobaan: 44.4%

Tes tidak stabil

2

Waktu respons: rata-rata 1.46s ยท total 21.86s ยท maks 2.89s

Jawaban salah: 8 Tidak mengikuti instruksi: 1

Model teratas berdasarkan skor

Pilih model pertama, lalu klik model kedua untuk membuka halaman berdampingan.

Perbandingan Cepat

Rincian Kategori

Kategori Skor Rata-rata Konsistensi Tes benar
Anti-AI Tricks 100 73 0/3
Combined 100 100 0/1
Data parsing and extraction 99 100 2/2
Domain specific 40 72 1/3
Instructions following 55 100 1/2
Puzzle Solving 40 98 1/3
Tool Calling 100 100 1/1