#7

GPT-5.4

OpenAI · प्रकाशन: 2026-03-05 · openai/gpt-5.4::medium

सरासरी स्कोअर

8.2

प्रति निकाल खर्च

6.533

सुसंगतता

8.9

एकूण खर्च

$0.784

बरोबर चाचण्या

12

एखादी चाचणी तेव्हाच पूर्णपणे पास मानली जाते जेव्हा तिचे सर्व रन पास होतात.

चुकीच्या चाचण्या

3

प्रति प्रयत्न पास दर: 86.7%

अस्थिर चाचण्या

2

अस्थिर चाचण्यांत रन्समध्ये मिश्र निकाल असतात (किमान एक पास आणि एक फेल).

प्रतिसाद वेळ (सरासरी)

21.06s

प्रतिसाद वेळ (कमाल): 100.41s

प्रतिसाद वेळ (एकूण): 315.95s

चुकीचे उत्तर: 2 सूचनांचे पालन केले नाही: 1

स्कोअरनुसार शीर्ष मॉडेल्स

पहिले मॉडेल निवडा, नंतर दुसरे मॉडेल क्लिक करून बाजू-बाजूची तुलना पेज उघडा.

#1 Gemini 3 Flash Preview 10.0

#2 Gemini 3.1 Pro Preview 9.3

#3 Qwen3.5 Plus 2026-02-15 8.8

#4 GPT-5.3-Codex 8.7

#5 Qwen3.5-27B 8.5

#6 Qwen3.5-122B-A10B 8.2

#7 GPT-5.4 8.2

#8 Gemini 3 Flash Preview 8.1

#9 Gemini 3 Pro Preview 8.1

#10 Gemini 3.1 Flash Lite Preview 8.1

#11 GPT-5.2 Chat 7.7

#12 Gemini 3.1 Flash Lite Preview 7.6

#13 DeepSeek V3.2 7.6

श्रेणी	सरासरी स्कोअर	सुसंगतता	बरोबर चाचण्या
Anti-AI Tricks	10.0	10.0	3/3
Combined	10.0	10.0	1/1
Data parsing and extraction	9.9	10.0	2/2
Domain specific	4.0	7.2	1/3
Instructions following	10.0	10.0	2/2
Puzzle Solving	7.0	7.2	2/3
Tool Calling	10.0	10.0	1/1