Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs MoonshotAI: Kimi K2.5

Compare:

Last updated at: 2026-03-03

Metric	Google: Gemini 3.1 Flash Lite Preview none Release: 2026-03-03	MoonshotAI: Kimi K2.5 medium Release: 2026-01-27
Rank	#10	#25
Avg Score	7.70	6.29
Consistency	9.54	7.69
Cost per result	0.116	2.335
Total Cost	$0.011	$0.187
Tests Correct
Attempt pass rate	69.1%	73.8%
Flaky tests	1	4
Output Tokens	4,307	30,504
Reasoning Tokens	0	58,467

Top Models by Score

Score vs Total Cost

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	6.00	7.85	55.6%	1		1,086	0
MoonshotAI: Kimi K2.5	7.00	7.21	88.9%	1		335	6,255

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		399	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		1,181	6,049

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		568	0
MoonshotAI: Kimi K2.5	1.00	4.41	33.3%	2		20,696	30,894

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	9.00	10.00	50.0%	0		574	0
MoonshotAI: Kimi K2.5	9.50	10.00	100.0%	0		3,777	4,967

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		898	0
MoonshotAI: Kimi K2.5	5.00	7.61	55.6%	1		4,273	9,490

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		782	0
MoonshotAI: Kimi K2.5	10.00	10.00	100.0%	0		242	812

Quick Compare

Switch Comparison Pair

Kimi K2.5mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6nonevsKimi K2.5medium Kimi K2.5mediumvsGLM 5none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGLM 5medium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 FlashmediumFree Available DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5.2medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-27Bmedium Gemini 3 Flash PreviewnonevsKimi K2.5medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-122B-A10Bmedium