Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3 Flash Preview 3.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#135	Kimi K2.5 none	Moonshot AI	2.8	5.2	0/1	19.2s
#136	Elephant Alpha medium	Openrouter	3.0	5.1	0/1	3.70s
#137	Elephant Alpha none	Openrouter	3.0	5.1	0/1	3.81s
#138	Ling-2.6-flash none	Inclusionai	3.0	5.0	0/1	35.3s
#139	DeepSeek V4 Flash none	DeepSeek	4.5	5.0	0/1	112.0s
#140	Qwen3 Coder Next none	Qwen	3.0	4.9	0/1	45.1s
#141	Nemotron 3 Super none	NVIDIA	3.0	4.9	0/1	16.4s
#142	Mistral Small 4 none	Mistral	3.0	4.9	0/1	1.72s
#143	MiMo-V2.5 none	Xiaomi	3.0	4.9	0/1	2.36s
#144	GPT-5.4 Mini none	OpenAI	3.0	4.9	0/1	2.52s
#145	Laguna M.1 none	Poolside	3.0	4.8	0/1	4.32s
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	2.01s
#147	GPT-4o-mini none	OpenAI	3.0	4.8	0/1	7.58s
#148	GPT-5.4 Nano none	OpenAI	3.0	4.7	0/1	3.84s
#149	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	4.6	0/1	0ms

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)