Comparer Graphiques

Langue:

❤️ Made by XCS

AI BENCHY Compare

OpenAI: GPT-5.4 vs StepFun: Step 3.5 Flash

Comparer:

Benchmarks générés à partir des suites de tests AI BENCHY le: 2026-03-05

Métrique	OpenAI: GPT-5.4 none Sortie: 2026-03-05	StepFun: Step 3.5 Flash medium Sortie: 2026-02-01 Disponible gratuitement
Rang	#44	#16
Score moy.	4.6	7.5
Tests corrects
Cohérence	8.9	9.0
Coût par résultat	1.496	0.000
Coût total	$0.090	$0.000
Taux de réussite par tentative	44.4%	73.3%
Tests instables	2	2
common.totalAttempts	45 (15 x 3)	45 (15 x 3)
Jetons de sortie	1,635	69,238
Jetons de raisonnement	0	152,563
Temps de réponse (moy.)	1.46s	31.60s
Temps de réponse (max)	2.89s	170.45s
Temps de réponse (total)	21.86s	284.43s

Meilleurs modèles par score

Temps de réponse (moy.)

Score vs coût total

Score moy. vs Temps de réponse (moy.)

Répartition par catégorie

Astuces anti-IA	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	10.0	7.3	11.1%	1		1.41s	388	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		18.54s	13,924	17,208

Combiné	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	10.0	10.0	0.0%	0		2.89s	291	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		29.57s	1,176	12,984

Analyse et extraction des données	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		1.04s	222	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		15.01s	600	13,886

Spécifique au domaine	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		1.07s	50	0
StepFun: Step 3.5 Flash	4.0	7.2	44.4%	1		170.45s	45,350	90,436

Suivi des instructions	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	5.5	10.0	50.0%	0		1.07s	81	0
StepFun: Step 3.5 Flash	9.0	6.8	83.3%	1		4.98s	2,284	3,412

Puzzle Solving	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	4.0	9.8	33.3%	0		1.52s	357	0
StepFun: Step 3.5 Flash	4.0	10.0	33.3%	0		7.72s	5,629	10,835

Appel d'outils	Score	Cohérence	Taux de réussite par tentative	Tests instables	Tests corrects	Temps de réponse (moy.)	Jetons de sortie	Jetons de raisonnement
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		2.75s	246	0
StepFun: Step 3.5 Flash	10.0	10.0	100.0%	0		11.91s	275	3,802

Comparaison rapide

Changer la paire de comparaison

GPT-5.3 ChatnonevsStep 3.5 FlashmediumDisponible gratuitement Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponible gratuitement Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumDisponible gratuitement MiniMax M2.5mediumvsGPT-5.4none GPT-5.2 ChatnonevsStep 3.5 FlashmediumDisponible gratuitement Gemini 3 Flash PreviewnonevsStep 3.5 FlashmediumDisponible gratuitement Gemini 3.1 Flash Lite PreviewhighvsStep 3.5 FlashmediumDisponible gratuitement Gemini 3 Flash PreviewlowvsStep 3.5 FlashmediumDisponible gratuitement Claude Sonnet 4.6nonevsStep 3.5 FlashmediumDisponible gratuitement Mercury 2mediumvsGPT-5.4none Qwen3.5 Plus 2026-02-15nonevsStep 3.5 FlashmediumDisponible gratuitement GPT-5.4nonevsQwen3.5-35B-A3Bmedium