Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Ring-2.6-1T 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#16	Gemini 3 Flash Preview low	Google	3.0	8.4	0/1	3.27s
#122	GLM 4.7 Flash none	Z.ai	3.0	5.5	0/1	3.22s
#58	Gemini 3.1 Flash Lite Preview none	Google	3.0	7.2	0/1	3.20s
#125	GPT-5.4 none	OpenAI	3.0	5.5	0/1	2.89s
#152	MiMo-V2-Flash none	Xiaomi	3.0	4.6	0/1	2.87s
#90	Gemini 3.1 Flash Lite none	Google	3.0	6.4	0/1	2.73s
#87	Gemini 3.1 Flash Lite minimal	Google	3.0	6.4	0/1	2.53s
#144	GPT-5.4 Mini none	OpenAI	3.0	4.9	0/1	2.52s
#143	MiMo-V2.5 none	Xiaomi	3.0	4.9	0/1	2.36s
#34	Qwen3.7 Max none	Qwen	3.0	7.7	0/1	2.17s
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	2.01s
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	0/1	1.88s
#142	Mistral Small 4 none	Mistral	3.0	4.9	0/1	1.72s
#155	Mercury 2 none	Inception	3.0	4.5	0/1	606ms
#20	Gemini 3.5 Flash none	Google	3.0	8.1	0/1	0ms

←

1 9 10 11

→

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)