Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Qwen3.5 Plus 2026-04-20 2.8

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#74	Qwen3.6 Max Preview none	Qwen	3.0	6.9	0/1	20.5s
#83	Step 3.5 Flash none	Stepfun	3.0	6.6	0/1	0ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	3.0	6.6	0/1	0ms
#85	Gemma 4 31B none	Google	3.0	6.5	0/1	0ms
#87	Gemini 3.1 Flash Lite minimal	Google	3.0	6.4	0/1	2.53s
#90	Gemini 3.1 Flash Lite none	Google	3.0	6.4	0/1	2.73s
#91	GPT-5.5 none	OpenAI	3.0	6.4	0/1	5.56s
#92	Laguna M.1 medium	Poolside	3.0	6.4	0/1	53.1s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	6.3	0/1	6.65s
#96	Ring-2.6-1T none	Inclusionai	3.0	6.2	0/1	0ms
#97	Gemini 2.5 Flash none	Google	3.0	6.2	0/1	4.39s
#98	GLM 5 none	Z.ai	3.0	6.1	0/1	4.98s
#100	Grok Build 0.1 none	X AI	3.0	6.0	0/1	0ms
#101	Mimo V2 Omni none	Xiaomi	3.0	6.0	0/1	5.96s
#102	Gemma 4 26B A4B none	Google	3.0	6.0	0/1	30.5s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)