Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Qwen3.5 Plus 2026-04-20 2.8

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#144	GPT-5.4 Mini none	OpenAI	3.0	4.9	0/1	2.52s
#145	Laguna M.1 none	Poolside	3.0	4.8	0/1	4.32s
#146	Laguna Xs.2 none	Poolside	3.0	4.8	0/1	2.01s
#147	GPT-4o-mini none	OpenAI	3.0	4.8	0/1	7.58s
#148	GPT-5.4 Nano none	OpenAI	3.0	4.7	0/1	3.84s
#149	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	3.0	4.6	0/1	0ms
#150	Qwen3 Coder Next medium	Qwen	3.0	4.6	0/1	4.28s
#151	Trinity Large Preview none	Arcee AI	3.0	4.6	0/1	8.91s
#152	MiMo-V2-Flash none	Xiaomi	3.0	4.6	0/1	2.87s
#153	Qwen3.6 35B A3B none	Qwen	3.0	4.6	0/1	0ms
#154	Qwen3.5-9B none	Qwen	3.0	4.6	0/1	5.91s
#155	Mercury 2 none	Inception	3.0	4.5	0/1	606ms
#156	Hy3 preview none	Tencent	3.0	4.4	0/1	35.8s
#157	Grok 4.1 Fast none	X AI	3.0	4.4	0/1	3.33s
#159	Ling-2.6-1T none	Inclusionai	3.0	4.3	0/1	23.5s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)