AI BENCHY Compare

Verglichene Modelle

Zusammenfassung

Benchmark-Vergleich MiniMax M2.7 vs Kimi K2.5 vs GLM 5 vs Gemini 3.1 Flash Lite PreviewGLM 5 führt bei Punktzahl mit 8.6. MiniMax M2.7 führt bei Zuverlässigkeit mit 10.0. Gemini 3.1 Flash Lite Preview hat den niedrigsten Gesamtkosten mit $0.068. Gemini 3.1 Flash Lite Preview ist mit 3.96s am schnellsten.

Empfohlenes Modell: Gemini 3.1 Flash Lite Preview - Die Punktzahl bleibt nah an der besten hier (7.8 vs 8.6) und es kostet etwa 3.3x weniger als die anderen Modelle in diesem Vergleich.

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-06-18

Metrik	MiniMax M2.7 MiniMax M2.7 medium Veröffentlichung: 2026-03-18	Kimi K2.5 Kimi K2.5 medium Veröffentlichung: 2026-01-27	GLM 5 GLM 5 medium Veröffentlichung: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03

Metrik	MiniMax M2.7 MiniMax M2.7 medium Veröffentlichung: 2026-03-18	Kimi K2.5 Kimi K2.5 medium Veröffentlichung: 2026-01-27	GLM 5 GLM 5 medium Veröffentlichung: 2026-02-12	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Veröffentlichung: 2026-03-03
Punktzahl	5.2	7.5	8.6	7.8
Rang	#127	#43	#15	#32
Zuverlässigkeit	10.0	10.0	10.0	10.0
Konsistenz	6.8	6.9	8.5	10.0
Korrekte Tests
Erfolgsquote pro Versuch	46.0%	68.3%	82.5%	61.9%
Instabile Tests	8	8	4	0
Gesamtläufe	63	63	63	63
Kosten pro Ergebnis	2.494	3.704	1.668	0.523
Gesamtkosten	$0.104	$0.348	$0.228	$0.068
Eingabepreis	$0.250 / 1M	$0.375 / 1M	$0.600 / 1M	$0.250 / 1M
Ausgabepreis	$1.000 / 1M	$2.025 / 1M	$1.920 / 1M	$1.500 / 1M
Gesamte Eingabe-Token	34,371	34,312	35,224	37,786
Ausgabe-Token	8,981	48,379	21,570	2,210
Denk-Token	89,812	157,747	102,996	36,744
Antwortzeit (Durchschnitt)	38.18s	98.43s	33.54s	3.96s
Antwortzeit (Maximum)	196.21s	281.00s	99.85s	14.93s
Antwortzeit (Gesamt)	763.60s	1378.03s	435.99s	83.06s

Generierungs-Showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#127 MiniMax M2.7

medium

Kosten: $0.022
Zeit: 22.8s
Token: 9,250 tok

#43 MoonshotAI: Kimi K2.5

medium

Kosten: $0.030
Zeit: 58.6s
Token: 8,683 tok

#15 GLM 5

medium

Kosten: $0.005
Zeit: 20.7s
Token: 2,068 tok

#32 Gemini 3.1 Flash Lite Preview

medium

Kosten: $0.003
Zeit: 5.2s
Token: 1,944 tok

Top-Modelle nach Score

Score vs. Gesamtkosten

Antwortzeit (Durchschnitt)

Punktzahl vs Antwortzeit (Durchschnitt)

Gesamte Ausgabe-Token

Punktzahl vs Gesamte Ausgabe-Token

Kategorieaufschlüsselung

Anti-KI-Tricks	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	7.9	6.3	83.3%	2	40.32s	654	3,010	17,716
Kimi K2.5	7.3	5.8	83.3%	2	51.38s	634	2,789	8,880
GLM 5	10.0	10.0	100.0%	0	23.66s	555	480	7,056
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0	2.33s	512	570	4,305

Programmierung	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	5.7	9.1	33.3%	0	101.89s	2,961	1,231	38,841
Kimi K2.5	6.1	4.6	66.7%	2	217.49s	6,935	5,705	74,693
GLM 5	10.0	10.0	100.0%	0	74.30s	7,254	2,997	52,930
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0	4.09s	8,126	461	8,597

Kombiniert	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	4.7	1.6	66.7%	1	41.03s	14,233	369	4,480
Kimi K2.5	10.0	10.0	100.0%	0	71.37s	11,280	703	3,713
GLM 5	10.0	10.0	100.0%	0	28.96s	12,804	662	3,242
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0	14.93s	13,403	327	7,347

Datenanalyse und -extraktion	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	6.3	5.8	66.7%	1	21.95s	7,152	187	5,882
Kimi K2.5	10.0	10.0	100.0%	0	49.78s	7,020	563	7,940
GLM 5	7.1	5.6	83.3%	1	8.90s	5,508	567	3,734
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0	2.29s	7,362	279	2,952

Domänenspezifisch	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	3.0	10.0	0.0%	0	19.00s	245	8	2,796
Kimi K2.5	3.5	4.4	33.3%	2	137.29s	485	20,753	30,564
GLM 5	3.5	4.4	33.3%	2	0ms	260	13,176	14,137
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0	4.21s	639	18	5,325

Allgemeine Intelligenz	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	3.9	2.5	33.3%	1	38.70s	486	92	5,204
Kimi K2.5	6.5	3.4	66.7%	1	69.73s	480	3,815	4,262
GLM 5	6.1	3.1	66.7%	1	14.69s	477	2,020	2,248
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0	3.16s	488	96	1,488

Befolgung von Anweisungen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	3.8	5.8	33.3%	1	12.80s	687	350	2,600
Kimi K2.5	10.0	10.0	100.0%	0	92.47s	675	5,371	6,547
GLM 5	10.0	10.0	100.0%	0	7.25s	636	1,001	2,129
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0	1.91s	621	72	2,121

Rätsellösen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	5.9	7.2	55.6%	1	24.87s	675	362	7,840
Kimi K2.5	5.3	7.3	44.4%	1	43.23s	659	8,426	12,692
GLM 5	10.0	10.0	100.0%	0	11.33s	609	33	4,076
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0	5.30s	566	141	1,896

Werkzeugaufrufe	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Instabile Tests	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	4.7	1.6	66.7%	1	12.05s	7,067	304	1,001
Kimi K2.5	10.0	10.0	100.0%	0	31.74s	5,933	242	812
GLM 5	10.0	10.0	100.0%	0	15.93s	6,935	233	994
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0	3.80s	5,909	234	912

Allgemeinwissen	Punktzahl	Konsistenz	Erfolgsquote pro Versuch	Antwortzeit (Durchschnitt)	Eingabe-Token	Ausgabe-Token	Denk-Token
MiniMax M2.7	3.0	10.0	0.0%	22.77s	211	3,068	3,452
Kimi K2.5	3.0	10.0	0.0%	83.95s	211	12	7,644
GLM 5	3.0	10.0	0.0%	67.37s	186	401	12,450
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	2.68s	160	12	1,801

Schnellvergleich

Vergleichspaar wechseln

MiniMax M2.7mediumvsQwen3.6 35B A3Bnone Kimi K2.5mediumvsGPT-5.3 Chatnone MiniMax M2.7mediumvsMistral Small 4none MiniMax M2.7mediumvsQwen3 Coder Nextnone DeepSeek V4 ProhighvsKimi K2.5medium GPT-5.2 ChatnonevsGLM 5medium North Mini CodenoneKostenlos verfügbarvsMiniMax M2.7medium Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow MiniMax M2.7mediumvsMiMo-V2.5none DeepSeek V3.2nonevsMiniMax M2.7medium MiniMax M2.7mediumvsQwen3.5-9Bnone MiniMax M2.7mediumvsQwen3.5-122B-A10Bnone