Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#59	GLM 5V Turbo medium	Z.ai	6.9	7.2	0/1	15.1s
#116	Hunter Alpha none	OpenRouter	3.0	5.7	0/1	15.2s
#107	Laguna Xs.2 medium	Poolside	3.0	5.8	0/1	15.9s
#141	Nemotron 3 Super none	NVIDIA	3.0	4.9	0/1	16.4s
#56	MiMo-V2.5 medium	Xiaomi	10.0	7.3	1/1	16.9s
#65	Grok 4.20 medium	X AI	10.0	7.1	1/1	17.4s
#68	Claude Opus 4.8 none	Anthropic	9.5	7.0	1/1	17.7s
#49	Qwen3.5-Flash medium	Qwen	10.0	7.4	1/1	17.8s
#45	GPT-5.4 Mini medium	OpenAI	10.0	7.5	1/1	17.8s
#8	Claude Opus 4.7 none	Anthropic	9.5	8.9	1/1	18.3s
#135	Kimi K2.5 none	Moonshot AI	2.8	5.2	0/1	19.2s
#9	GPT-5.5 medium	OpenAI	10.0	8.8	1/1	19.3s
#15	GPT-5.3-Codex medium	OpenAI	10.0	8.4	1/1	19.6s
#5	Qwen3.7 Max medium	Qwen	10.0	9.1	1/1	19.6s
#39	Qwen3.6 Flash medium	Qwen	10.0	7.5	1/1	20.3s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)