AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs Qwen: Qwen3.5-35B-A3B

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-01

Metrică	Kimi K2.5 Kimi K2.5 medium Lansare: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lansare: 2026-02-24

Metrică	Kimi K2.5 Kimi K2.5 medium Lansare: 2026-01-27	Qwen3.5-35B-A3B Qwen3.5-35B-A3B medium Lansare: 2026-02-24
Scor	7.0	7.4
Rang	#60	#57
Fiabilitate	N/D	N/D
Consistență	6.8	6.7
Teste corecte
Rată de trecere pe încercare	72.2%	79.6%
Teste instabile	7	7
Rulări totale	54	54
Cost per rezultat	2.444	3.976
Cost total	$0.220	$0.398
Preț de intrare	$0.440 / 1M	$0.163 / 1M
Preț de ieșire	$2.000 / 1M	$1.300 / 1M
Tokenuri de ieșire	42,176	10,137
Tokenuri de raționament	84,870	208,761
Timp de răspuns (mediu)	72.43s	44.51s
Timp de răspuns (maxim)	150.77s	106.00s
Timp de răspuns (total)	796.70s	801.21s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		21.13s	798	42,652

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		79.09s	4,273	33,078

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
Qwen3.5-35B-A3B	4.7	1.6	66.7%	1		75.34s	775	12,485

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
Qwen3.5-35B-A3B	7.3	5.9	83.3%	1		59.33s	235	19,493

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
Qwen3.5-35B-A3B	4.1	4.4	44.5%	2		88.34s	41	46,368

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
Qwen3.5-35B-A3B	2.8	1.6	33.3%	1		30.30s	20	3,753

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		24.45s	97	17,361

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
Qwen3.5-35B-A3B	6.4	4.4	77.8%	2		31.58s	3,589	32,206

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
Qwen3.5-35B-A3B	10.0	10.0	100.0%	0		4.65s	309	1,365

Comparație rapidă

Schimbă perechea de comparație

Claude Sonnet 4.6nonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsKimi K2.5medium Gemma 4 31BnoneDisponibil gratuitvsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Kimi K2.5mediumvsGPT-5.5none Kimi K2.5mediumvsGLM 5none Claude Sonnet 4.6nonevsKimi K2.5medium DeepSeek V4 FlashhighvsQwen3.5-35B-A3Bmedium GPT-5.3 ChatnonevsQwen3.5-35B-A3Bmedium DeepSeek V4 ProhighvsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium GPT-5.2 ChatnonevsQwen3.5-35B-A3Bmedium