Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#99	gpt-oss-120b medium	OpenAI	10.0	6.1	1/1	31.2s
#103	DeepSeek V4 Pro high	DeepSeek	10.0	6.0	1/1	65.0s
#105	Nemotron 3 Super medium	NVIDIA	10.0	5.8	1/1	87.8s
#10	Claude Opus 4.8 medium	Anthropic	9.8	8.7	1/1	38.0s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	9.8	7.5	1/1	43.9s
#64	MiMo-V2-Flash medium	Xiaomi	9.8	7.2	1/1	75.7s
#70	GPT-5.4 Nano medium	OpenAI	9.8	7.0	1/1	24.1s
#37	Gemma 4 26B A4B medium	Google	9.6	7.6	1/1	73.5s
#4	Gemini 3.1 Pro Preview medium	Google	9.5	9.4	1/1	40.6s
#8	Claude Opus 4.7 none	Anthropic	9.5	8.9	1/1	18.3s
#55	GLM 5.1 medium	Z.ai	9.5	7.3	1/1	43.1s
#68	Claude Opus 4.8 none	Anthropic	9.5	7.0	1/1	17.7s
#77	Claude Sonnet 4.6 none	Anthropic	9.5	6.8	1/1	23.8s
#113	DeepSeek V4 Pro none	DeepSeek	9.5	5.7	1/1	25.5s
#78	Qwen3.6 27B medium	Qwen	7.0	6.8	0/1	83.1s

Kombiniert-Ranking