AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs StepFun: Step 3.7 Flash

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-29

Metrică	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lansare: 2026-02-24	Step 3.7 Flash Step 3.7 Flash medium Lansare: 2026-05-29

Metrică	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lansare: 2026-02-24	Step 3.7 Flash Step 3.7 Flash medium Lansare: 2026-05-29
Scor	7.7	7.9
Rang	#43	#32
Fiabilitate	10.0	9.9
Consistență	8.8	9.2
Teste corecte
Rată de trecere pe încercare	71.7%	71.7%
Teste instabile	3	2
Rulări totale	60	58
Cost per rezultat	5.031	2.663
Cost total	$0.655	$0.347
Preț de intrare	$0.260 / 1M	$0.200 / 1M
Preț de ieșire	$2.080 / 1M	$1.150 / 1M
Tokenuri de ieșire	26,166	294,481
Tokenuri de raționament	213,524	0
Timp de răspuns (mediu)	39.40s	18.32s
Timp de răspuns (maxim)	168.16s	113.98s
Timp de răspuns (total)	788.00s	366.45s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	269	16,835
Step 3.7 Flash	8.7	7.9	91.7%	1		9.65s	32,185	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	4.1	5.8	33.3%	1		119.57s	8,036	45,074
Step 3.7 Flash	8.2	6.7	83.3%	1		10.64s	19,320	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	483	11,337
Step 3.7 Flash	10.0	10.0	100.0%	0		9.06s	7,106	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	270	16,558
Step 3.7 Flash	10.0	10.0	100.0%	0		2.75s	3,020	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	15,537	64,889
Step 3.7 Flash	7.7	10.0	66.7%	0		48.27s	70,347	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	66	7,592
Step 3.7 Flash	4.0	10.0	0.0%	0		6.85s	3,987	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	77	7,372
Step 3.7 Flash	9.8	10.0	100.0%	0		1.83s	2,166	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	284	27,575
Step 3.7 Flash	5.7	9.9	33.3%	0		6.19s	15,071	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	322	1,226
Step 3.7 Flash	10.0	10.0	100.0%	0		4.16s	2,115	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	822	15,066
Step 3.7 Flash	3.0	10.0	0.0%	0		113.98s	139,164	0

Comparație rapidă

Schimbă perechea de comparație

Qwen3.7 MaxnonevsStep 3.7 Flashmedium GPT-5.2 ChatnonevsStep 3.7 Flashmedium Gemini 3 Flash PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3.5 FlashminimalvsStep 3.7 Flashmedium DeepSeek V4 FlashhighDisponibil gratuitvsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-122B-A10Bmedium GPT-5.2 ChatnonevsQwen3.5-122B-A10Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium Gemini 3 Flash PreviewnonevsStep 3.7 Flashmedium Gemini 3.5 FlashminimalvsQwen3.5-122B-A10Bmedium DeepSeek V4 FlashhighDisponibil gratuitvsStep 3.7 Flashmedium Gemini 3.1 Flash LitelowvsQwen3.5-122B-A10Bmedium