比較するチャート

言語:

❤️ Made by XCS

#7

GPT-5.4

OpenAI · リリース: 2026-03-05 · openai/gpt-5.4::medium

平均スコア

8.2

結果あたりのコスト

6.533

一貫性

8.9

合計コスト

$0.784

正解テスト

12

テストは、その全実行が合格した場合にのみ完全合格とみなされます。

誤答テスト数

3

試行ごとの合格率: 86.7%

不安定なテスト

2

不安定なテストは、実行間で結果が混在しています（少なくとも1回合格かつ1回失敗）。

応答時間（平均）

21.06s

応答時間（最大）: 100.41s

応答時間（合計）: 315.95s

不正解: 2 指示に従っていない: 1

スコア上位モデル

最初のモデルを選択し、次に2つ目のモデルをクリックして並列比較ページを開きます。

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

クイック比較

GPT-5.4mediumvsQwen3.5-122B-A10Bmedium GPT-5.4mediumvsGemini 3 Flash Previewlow GPT-5.4mediumvsQwen3.5-27Bmedium GPT-5.4mediumvsGemini 3 Pro Previewmedium GPT-5.4mediumvsGPT-5.3-Codexmedium GPT-5.4mediumvsGemini 3.1 Flash Lite Previewhigh GPT-5.4mediumvsGemini 3 Flash Previewmedium GPT-5.4mediumvsGemini 3.1 Pro Previewmedium GPT-5.4mediumvsStep 3.5 Flashmedium無料で利用可能

カテゴリ内訳

カテゴリ	平均スコア	一貫性	正解テスト
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1