Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#57	Step 3.7 Flash low	Stepfun	10.0	7.3	1/1	7.98s
#147	GPT-4o-mini none	OpenAI	3.0	4.8	0/1	7.58s
#95	Qwen3.5 Plus 2026-02-15 none	Qwen	3.0	6.3	0/1	6.65s
#110	Seed-2.0-Lite none	Bytedance Seed	3.0	5.8	0/1	6.59s
#120	Mimo V2 PRO none	Xiaomi	3.0	5.6	0/1	6.58s
#109	GLM 5V Turbo none	Z.ai	3.0	5.8	0/1	6.51s
#106	Grok 4.20 Beta none	X AI	3.0	5.8	0/1	6.48s
#3	Gemini 3.5 Flash low	Google	10.0	9.4	1/1	6.44s
#108	Qwen3.5-Flash none	Qwen	3.0	5.8	0/1	6.22s
#127	Grok 4.20 none	X AI	3.0	5.4	0/1	6.04s
#101	Mimo V2 Omni none	Xiaomi	3.0	6.0	0/1	5.96s
#154	Qwen3.5-9B none	Qwen	3.0	4.6	0/1	5.91s
#91	GPT-5.5 none	OpenAI	3.0	6.4	0/1	5.56s
#98	GLM 5 none	Z.ai	3.0	6.1	0/1	4.98s
#134	GLM 5 Turbo none	Z.ai	3.0	5.2	0/1	4.89s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)