AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs OpenAI: GPT-5.2

Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-19

Metriek	Kimi K2.5 Kimi K2.5 medium Releasedatum: 2026-01-27	GPT-5.2 GPT-5.2 medium Releasedatum: 2025-12-11

Metriek	Kimi K2.5 Kimi K2.5 medium Releasedatum: 2026-01-27	GPT-5.2 GPT-5.2 medium Releasedatum: 2025-12-11
Score	6.8	7.2
Rang	#76	#65
Betrouwbaarheid	10.0	10.0
Consistentie	7.0	8.2
Correcte tests
Slaagpercentage per poging	68.4%	68.4%
Instabiele tests	7	4
Totaal runs	57	57
Kosten per resultaat	2.616	3.609
Totale kosten	$0.236	$0.397
Invoerprijs	$0.400 / 1M	$1.750 / 1M
Uitvoerprijs	$1.900 / 1M	$14.000 / 1M
Uitvoer-tokens	42,188	2,731
Redeneer-tokens	92,514	22,200
Responstijd (gem.)	73.39s	15.22s
Responstijd (max)	150.77s	77.80s
Responstijd (totaal)	880.65s	182.59s

Topmodellen op score

Score vs totale kosten

Responstijd (gem.)

Score vs Responstijd (gem.)

Totaal aantal uitvoer-tokens

Score vs Totaal aantal uitvoer-tokens

Categorie-uitsplitsing

Anti-AI-trucs	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	7.3	5.8	83.3%	2		51.38s	2,789	8,880
GPT-5.2	6.5	8.0	58.3%	1		7.81s	567	2,002

Programmeren	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	4.7	1.6	66.7%	1		150.77s	1,269	9,749
GPT-5.2	10.0	10.0	100.0%	0		15.12s	467	2,166

Gecombineerd	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	10.0	10.0	100.0%	0		71.37s	703	3,713
GPT-5.2	10.0	10.0	100.0%	0		14.06s	291	1,757

Gegevensparsering en extractie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	10.0	10.0	100.0%	0		49.78s	563	7,940
GPT-5.2	10.0	10.0	100.0%	0		3.15s	234	420

Domeinspecifiek	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	3.5	4.4	33.3%	2		137.29s	20,753	30,564
GPT-5.2	5.9	7.2	55.6%	1		77.80s	42	10,342

Algemene intelligentie	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	6.5	3.4	66.7%	1		69.73s	3,815	4,262
GPT-5.2	3.7	9.7	0.0%	0		4.32s	162	269

Instructies opvolgen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	10.0	10.0	100.0%	0		92.47s	5,371	6,547
GPT-5.2	9.9	10.0	100.0%	0		3.12s	94	614

Puzzeloplossing	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	5.3	7.3	44.4%	1		45.40s	6,671	12,403
GPT-5.2	7.6	7.3	77.8%	1		5.47s	609	938

Toolaanroepen	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	10.0	10.0	100.0%	0		31.74s	242	812
GPT-5.2	4.7	1.6	66.7%	1		10.30s	239	469

Algemene kennis	Score	Consistentie	Slaagpercentage per poging	Instabiele tests	Correcte tests	Responstijd (gem.)	Uitvoer-tokens	Redeneer-tokens
Kimi K2.5	3.0	10.0	0.0%	0		83.95s	12	7,644
GPT-5.2	3.0	10.0	0.0%	0		28.18s	26	3,223

Snelle vergelijking

Vergelijkingspaar wisselen

Gemini 3.1 Flash LiteminimalvsKimi K2.5medium Claude Sonnet 4.6nonevsGPT-5.2medium Ring-2.6-1TnonevsGPT-5.2medium GPT-5.2mediumvsQwen3.6 Max Previewnone DeepSeek V4 ProhighvsKimi K2.5medium Gemma 4 31BnoneGratis beschikbaarvsKimi K2.5medium Kimi K2.5mediumvsGPT-5.5none Gemini 3.1 Flash LitenonevsKimi K2.5medium Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Gemma 4 31BnoneGratis beschikbaarvsGPT-5.2medium DeepSeek V4 FlashhighGratis beschikbaarvsGPT-5.2medium DeepSeek V4 ProhighvsGPT-5.2medium