Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#42	GPT-5.2 medium	OpenAI	10.0	7.5	1/1	14.1s
#43	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.5	1/1	53.4s
#44	Gemini 3.1 Flash Lite medium	Google	10.0	7.5	1/1	10.9s
#45	GPT-5.4 Mini medium	OpenAI	10.0	7.5	1/1	17.8s
#47	Grok Build 0.1 medium	X AI	10.0	7.4	1/1	32.8s
#49	Qwen3.5-Flash medium	Qwen	10.0	7.4	1/1	17.8s
#52	Claude Sonnet 4.6 medium	Anthropic	10.0	7.4	1/1	46.4s
#53	Gemini 3.1 Flash Lite high	Google	10.0	7.3	1/1	149.2s
#54	GPT-5 Mini medium	OpenAI	10.0	7.3	1/1	88.2s
#56	MiMo-V2.5 medium	Xiaomi	10.0	7.3	1/1	16.9s
#57	Step 3.7 Flash low	Stepfun	10.0	7.3	1/1	7.98s
#60	Kimi K2.6 medium	Moonshot AI	10.0	7.2	1/1	41.0s
#62	Step 3.5 Flash medium	Stepfun	10.0	7.2	1/1	29.6s
#63	GPT-5.3 Chat none	OpenAI	10.0	7.2	1/1	12.0s
#65	Grok 4.20 medium	X AI	10.0	7.1	1/1	17.4s

Kombiniert-Ranking