Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3.5 Flash 3.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#88	Qwen3.7 Plus none	Qwen	10.0	6.4	1/1	29.4s
#62	Step 3.5 Flash medium	Stepfun	10.0	7.2	1/1	29.6s
#79	Hunter Alpha medium	OpenRouter	4.7	6.7	0/1	30.5s
#102	Gemma 4 26B A4B none	Google	3.0	6.0	0/1	30.5s
#99	gpt-oss-120b medium	OpenAI	10.0	6.1	1/1	31.2s
#112	GLM 5.1 none	Z.ai	2.8	5.7	0/1	32.6s
#47	Grok Build 0.1 medium	X AI	10.0	7.4	1/1	32.8s
#26	Qwen3.6 Plus medium	Qwen	10.0	7.9	1/1	35.0s
#93	Qwen3.6 Plus Preview medium	Qwen	10.0	6.3	1/1	35.0s
#138	Ling-2.6-flash none	Inclusionai	3.0	5.0	0/1	35.3s
#156	Hy3 preview none	Tencent	3.0	4.4	0/1	35.8s
#86	Grok 4.1 Fast medium	X AI	10.0	6.5	1/1	37.6s
#19	Seed-2.0-Lite medium	Bytedance Seed	10.0	8.2	1/1	37.7s
#10	Claude Opus 4.8 medium	Anthropic	9.8	8.7	1/1	38.0s
#4	Gemini 3.1 Pro Preview medium	Google	9.5	9.4	1/1	40.6s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)