Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Qwen3.5 Plus 2026-04-20 2.8

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#114	Qwen3.5 Plus 2026-04-20 none	Qwen	2.8	5.7	0/1	13.3s
#115	Qwen3.5-27B none	Qwen	2.8	5.7	0/1	9.39s
#112	GLM 5.1 none	Z.ai	2.8	5.7	0/1	32.6s
#135	Kimi K2.5 none	Moonshot AI	2.8	5.2	0/1	19.2s
#158	GLM 4.7 Flash medium	Z.ai	2.8	4.4	0/1	65.6s
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms
#27	Gemma 4 31B medium	Google	3.0	7.8	0/1	0ms
#32	Gemini 3.5 Flash minimal	Google	3.0	7.7	0/1	3.56s
#34	Qwen3.7 Max none	Qwen	3.0	7.7	0/1	2.17s
#35	Gemini 3 PRO Preview medium	Google	3.0	7.6	0/1	10.4s
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#50	Gemini 3.1 Flash Lite Preview low	Google	3.0	7.4	0/1	11.9s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#61	Gemini 3.1 Flash Lite low	Google	3.0	7.2	0/1	4.48s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)