Modell-Ranking für Kombiniert

AI BENCHY Kategorie

Sieh, welche KI-Modelle bei Kombiniert am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Kombiniert-Score

6.3

Bestes Modell

Gemini 3 Flash Preview 3.0

Fehlergründe

Mit Fehlergrund Falsche Antwort52 Mit Fehlergrund Ungültiger Werkzeugaufruf19 Mit Fehlergrund API-Fehler13 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund Zeitüberschreitung2 Mit Fehlergrund Anweisungen nicht befolgt1

Rang	Modell	Unternehmen	Kombiniert-Score	Punktzahl	Korrekte Tests	Antwortzeit (Durchschnitt)
#150	Qwen3 Coder Next medium	Qwen	3.0	4.6	0/1	4.28s
#151	Trinity Large Preview none	Arcee AI	3.0	4.6	0/1	8.91s
#152	MiMo-V2-Flash none	Xiaomi	3.0	4.6	0/1	2.87s
#153	Qwen3.6 35B A3B none	Qwen	3.0	4.6	0/1	0ms
#154	Qwen3.5-9B none	Qwen	3.0	4.6	0/1	5.91s
#155	Mercury 2 none	Inception	3.0	4.5	0/1	606ms
#156	Hy3 preview none	Tencent	3.0	4.4	0/1	35.8s
#157	Grok 4.1 Fast none	X AI	3.0	4.4	0/1	3.33s
#158	GLM 4.7 Flash medium	Z.ai	2.8	4.4	0/1	65.6s
#159	Ling-2.6-1T none	Inclusionai	3.0	4.3	0/1	23.5s
#160	LFM2-24B-A2B none	Liquid	3.0	4.2	0/1	0ms
#161	Qwen3.5-9B medium	Qwen	3.0	4.2	0/1	0ms
#162	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.0	4.1	0/1	0ms
#163	Granite 4.1 8B none	IBM Granite	3.0	4.0	0/1	1.88s
#1	Gemini 3 Flash Preview medium	Google	10.0	9.8	1/1	22.4s

Kombiniert-Ranking

Top-Modelle nach Kombiniert-Score

Kombiniert-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)