Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#46	Qwen3.6 35B A3B medium	Qwen	3.0	7.4	0/1	0ms
#50	Gemini 3.1 Flash Lite Preview low	Google	3.0	7.4	0/1	11.9s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#61	Gemini 3.1 Flash Lite low	Google	3.0	7.2	0/1	4.48s
#74	Qwen3.6 Max Preview none	Qwen	3.0	6.9	0/1	20.5s
#83	Step 3.5 Flash none	Stepfun	3.0	6.6	0/1	0ms
#84	Grok 4.20 Multi Agent Beta medium	X AI	3.0	6.6	0/1	0ms
#85	Gemma 4 31B none	Google	3.0	6.5	0/1	0ms
#87	Gemini 3.1 Flash Lite minimal	Google	3.0	6.4	0/1	2.53s
#90	Gemini 3.1 Flash Lite none	Google	3.0	6.4	0/1	2.73s
#91	GPT-5.5 none	OpenAI	3.0	6.4	0/1	5.56s
#92	Laguna M.1 medium	Poolside	3.0	6.4	0/1	53.1s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	6.3	0/1	6.65s
#96	Ring-2.6-1T none	Inclusionai	3.0	6.2	0/1	0ms
#97	Gemini 2.5 Flash none	Google	3.0	6.2	0/1	4.39s

Kombiniert-Ranking