Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Qwen3.5 Plus 2026-04-20 2.8

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#8	Claude Opus 4.7 none	Anthropic	9.5	8.9	1/1	18.3s
#55	GLM 5.1 medium	Z.ai	9.5	7.3	1/1	43.1s
#68	Claude Opus 4.8 none	Anthropic	9.5	7.0	1/1	17.7s
#77	Claude Sonnet 4.6 none	Anthropic	9.5	6.8	1/1	23.8s
#113	DeepSeek V4 Pro none	DeepSeek	9.5	5.7	1/1	25.5s
#37	Gemma 4 26B A4B medium	Google	9.6	7.6	1/1	73.5s
#10	Claude Opus 4.8 medium	Anthropic	9.8	8.7	1/1	38.0s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	9.8	7.5	1/1	43.9s
#64	MiMo-V2-Flash medium	Xiaomi	9.8	7.2	1/1	75.7s
#70	GPT-5.4 Nano medium	OpenAI	9.8	7.0	1/1	24.1s
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	1/1	22.4s
#2	Gemini 3.5 Flash high	Google	10.0	9.6	1/1	22.4s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	6.44s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	19.6s
#6	GPT-5.5 low	OpenAI	10.0	9.0	1/1	9.56s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)