Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#37	Gemma 4 26B A4B medium	Google	9.6	7.6	1/1	73.5s
#38	Grok 4.3 medium	X AI	10.0	7.6	1/1	64.0s
#39	Qwen3.6 Flash medium	Qwen	10.0	7.5	1/1	20.3s
#40	Gemini 3.1 Flash Lite Preview medium	Google	10.0	7.5	1/1	14.9s
#41	Nemotron 3 Ultra 550b A55b medium	NVIDIA	9.8	7.5	1/1	43.9s
#42	GPT-5.2 medium	OpenAI	10.0	7.5	1/1	14.1s
#43	MiMo-V2.5-Pro medium	Xiaomi	10.0	7.5	1/1	53.4s
#44	Gemini 3.1 Flash Lite medium	Google	10.0	7.5	1/1	10.9s
#45	GPT-5.4 Mini medium	OpenAI	10.0	7.5	1/1	17.8s
#47	Grok Build 0.1 medium	X AI	10.0	7.4	1/1	32.8s
#49	Qwen3.5-Flash medium	Qwen	10.0	7.4	1/1	17.8s
#52	Claude Sonnet 4.6 medium	Anthropic	10.0	7.4	1/1	46.4s
#53	Gemini 3.1 Flash Lite high	Google	10.0	7.3	1/1	149.2s
#54	GPT-5 Mini medium	OpenAI	10.0	7.3	1/1	88.2s
#55	GLM 5.1 medium	Z.ai	9.5	7.3	1/1	43.1s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)