AI BENCHY Compare

Qwen: Qwen3.5-122B-A10B vs StepFun: Step 3.7 Flash

Rezumat

Scorul mediu este practic egal la 7.7 vs 7.7. Step 3.7 Flash (low) are costul de benchmark mai mic, $0.341 vs $0.588. Step 3.7 Flash (low) este mai rapid cu 15.74s vs 42.49s, cu rate de reușită de 73.0% vs 68.3%.

Model recomandatStep 3.7 Flash (low)Are cel mai bun scor aici (7.7) și costă de aproximativ 1.7x mai puțin decât Qwen3.5-122B-A10B (medium).

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-14

Metrică	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lansare: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lansare: 2026-05-29

Metrică	Qwen3.5-122B-A10B Qwen3.5-122B-A10B medium Lansare: 2026-02-24	Step 3.7 Flash Step 3.7 Flash low Lansare: 2026-05-29
Scor	7.7	7.7
Rang	#46	#51
Fiabilitate	10.0	10.0
Consistență	8.8	8.4
Teste corecte
Rată de trecere pe încercare	73.0%	68.3%
Teste instabile	3	4
Rulări totale	63	63
Cost per rezultat	5.235	2.840
Cost total	$0.588	$0.341
Preț de intrare	$0.260 / 1M	$0.200 / 1M
Preț de ieșire	$2.080 / 1M	$1.150 / 1M
Total tokenuri de intrare	41,832	40,101
Tokenuri de ieșire	26,187	289,325
Tokenuri de raționament	251,028	0
Timp de răspuns (mediu)	42.49s	15.74s
Timp de răspuns (maxim)	168.16s	124.75s
Timp de răspuns (total)	892.30s	330.63s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#46 Qwen3.5-122B-A10B

medium

Cost: $0.019
Timp: 48.7s
Tokenuri: 6,034 tok

#51 Step 3.7 Flash

low

SVG invalid

Cost: $0.004
Timp: 25.3s
Tokenuri: 3,072 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Categorie:

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.75s	672	269	16,835
Step 3.7 Flash	8.7	7.9	91.7%	1		4.02s	756	10,896	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	6.0	7.2	55.6%	1		114.48s	7,630	8,057	82,578
Step 3.7 Flash	8.2	7.2	88.9%	1		9.46s	7,437	18,685	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		107.79s	14,947	483	11,337
Step 3.7 Flash	10.0	10.0	100.0%	0		7.98s	13,683	6,426	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		23.41s	7,782	270	16,558
Step 3.7 Flash	7.3	5.8	83.3%	1		2.29s	7,398	2,667	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	2.9	7.2	11.1%	1		63.40s	771	15,537	64,889
Step 3.7 Flash	5.3	7.2	44.4%	1		43.31s	828	104,487	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	3.4	2.2	33.3%	1		34.11s	344	66	7,592
Step 3.7 Flash	3.4	9.3	0.0%	0		7.00s	525	4,604	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		9.88s	593	77	7,372
Step 3.7 Flash	9.8	10.0	100.0%	0		1.58s	735	1,857	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		17.89s	696	284	27,575
Step 3.7 Flash	5.5	9.9	33.3%	0		1.84s	756	3,564	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	10.0	10.0	100.0%	0		4.60s	8,193	322	1,226
Step 3.7 Flash	10.0	10.0	100.0%	0		3.25s	7,746	1,360	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Qwen3.5-122B-A10B	3.0	10.0	0.0%	0		52.87s	204	822	15,066
Step 3.7 Flash	3.0	10.0	0.0%	0		124.75s	237	134,779	0

Comparație rapidă

Schimbă perechea de comparație

GPT-5.6 LunahighvsStep 3.7 Flashlow Claude Opus 4.8lowvsQwen3.5-122B-A10Bmedium Claude Opus 4.6mediumvsStep 3.7 Flashlow Step 3.7 FlashlowvsGrok 4.3medium KAT-Coder-Pro V2.5highvsStep 3.7 Flashlow GPT-5.6 TerralowvsQwen3.5-122B-A10Bmedium GPT-5.6 LunahighvsQwen3.5-122B-A10Bmedium Kimi K2.6mediumDisponibil gratuitvsStep 3.7 Flashlow Gemini 3.1 Flash LitemediumvsStep 3.7 Flashlow KAT-Coder-Pro V2.5highvsQwen3.5-122B-A10Bmedium Qwen3.5-122B-A10BmediumvsGrok 4.5low Qwen3.5 Plus 2026-04-20mediumvsStep 3.7 Flashlow