AI Benchy Bestenliste

Name: AI BENCHY Modell-Benchmark-Ergebnisse
Creator: AI BENCHY
License: https://aibenchy.com/methodology/

Benchmarks aus AI BENCHY-Test-Suites generiert am: 2026-07-24 Bewertete Modelle: 222

222/222

Rang	Modell	Punktzahl	Unternehmen	Gesamtkosten	Antwortzeit (Durchschnitt)
#34#34	GPT-5.2 Chatnone	8.0	OpenAI	$0.604	7.65s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 74.2% Instabile Tests 4 Eingabe-Token 101,248 Ausgabe-Token 30,424 Denk-Token 0 Antwortzeit (Durchschnitt) 7.65s Antwortzeit (Gesamt) 168.39s Antwortzeit (Maximum) 38.52s Falsche Antwort: 6 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Anti-KI-Tricks : 8.7 Programmierung : 8.8 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.4 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#35#35	GLM 5.2high	8.0	Z.ai	$0.800 ↓	62.65s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 3 Eingabe-Token 83,813 Ausgabe-Token 69,688 Denk-Token 225,659 Antwortzeit (Durchschnitt) 62.65s Antwortzeit (Gesamt) 1378.34s Antwortzeit (Maximum) 599.43s Zeitüberschreitung: 3 Falsche Antwort: 3 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.4 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.7 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 6.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#38#38	GPT-5.6 Terrahigh	8.0	OpenAI	$1.055	11.32s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 2 Eingabe-Token 81,047 Ausgabe-Token 5,055 Denk-Token 51,736 Antwortzeit (Durchschnitt) 11.32s Antwortzeit (Gesamt) 249.14s Antwortzeit (Maximum) 91.49s Falsche Antwort: 7 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 7.6 Kombiniert : 8.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#39#39	Seed-2.0-Litemedium	7.9	Bytedance Seed	$0.234	48.53s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 74.2% Instabile Tests 4 Eingabe-Token 129,897 Ausgabe-Token 12,533 Denk-Token 88,047 Antwortzeit (Durchschnitt) 48.53s Antwortzeit (Gesamt) 1067.74s Antwortzeit (Maximum) 254.92s Falsche Antwort: 5 Anweisungen nicht befolgt: 2 Keine Antwort: 1 Anti-KI-Tricks : 8.3 Programmierung : 8.0 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 6.7 Befolgung von Anweisungen : 10.0 Rätsellösen : 9.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#40#40	Qwen3.7 Plusmedium	7.9	Qwen	$0.267 ↓	51.51s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 75.8% Instabile Tests 3 Eingabe-Token 115,233 Ausgabe-Token 6,162 Denk-Token 173,267 Antwortzeit (Durchschnitt) 51.51s Antwortzeit (Gesamt) 1133.15s Antwortzeit (Maximum) 315.30s Falsche Antwort: 5 Ungültiger Werkzeugaufruf: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.1 Kombiniert : 8.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#41#41	Qwen3.6 Plusmedium	7.8	Qwen	$0.405 ↑	43.12s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 2 Eingabe-Token 97,689 Ausgabe-Token 6,412 Denk-Token 184,825 Antwortzeit (Durchschnitt) 43.12s Antwortzeit (Gesamt) 905.53s Antwortzeit (Maximum) 291.55s Falsche Antwort: 5 API-Fehler: 1 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.1 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 5.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#43#43	GPT-5.6 Terramedium	7.8	OpenAI	$0.676	7.11s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 2 Eingabe-Token 79,175 Ausgabe-Token 4,878 Denk-Token 26,952 Antwortzeit (Durchschnitt) 7.11s Antwortzeit (Gesamt) 156.42s Antwortzeit (Maximum) 41.68s Falsche Antwort: 8 Anti-KI-Tricks : 8.3 Programmierung : 6.1 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.5 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.4 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#44#44	Claude Sonnet 4.6medium	7.8	Anthropic	$2.057	25.91s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 66.7% Instabile Tests 2 Eingabe-Token 106,292 Ausgabe-Token 80,748 Denk-Token 35,117 Antwortzeit (Durchschnitt) 25.91s Antwortzeit (Gesamt) 362.78s Antwortzeit (Maximum) 140.96s Falsche Antwort: 4 Zusätzliche Formatierung: 3 Zeitüberschreitung: 1 Anti-KI-Tricks : 6.5 Programmierung : 5.7 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#45#45	Claude Opus 4.8low	7.8	Anthropic	$2.077	12.74s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 80.3% Instabile Tests 3 Eingabe-Token 156,525 Ausgabe-Token 43,141 Denk-Token 8,617 Antwortzeit (Durchschnitt) 12.74s Antwortzeit (Gesamt) 280.29s Antwortzeit (Maximum) 127.97s Falsche Antwort: 4 Zusätzliche Formatierung: 1 Keine Antwort: 1 Anti-KI-Tricks : 10.0 Programmierung : 6.6 Kombiniert : 9.9 Datenanalyse und -extraktion : 6.3 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#46#46	GLM 5medium	7.7	Z.ai	$0.307 ↑	33.54s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 78.8% Instabile Tests 4 Eingabe-Token 35,224 Ausgabe-Token 21,570 Denk-Token 102,996 Antwortzeit (Durchschnitt) 33.54s Antwortzeit (Gesamt) 435.99s Antwortzeit (Maximum) 99.85s Falsche Antwort: 3 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 10.0 Programmierung : 10.0 Kombiniert : 5.0 Datenanalyse und -extraktion : 7.1 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#47#47	Claude Opus 4.6medium	7.7	Anthropic	$3.059	34.27s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 3 Eingabe-Token 108,615 Ausgabe-Token 72,286 Denk-Token 28,315 Antwortzeit (Durchschnitt) 34.27s Antwortzeit (Gesamt) 513.99s Antwortzeit (Maximum) 151.51s Zusätzliche Formatierung: 5 Falsche Antwort: 3 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 6.4 Programmierung : 5.7 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#48#48	GPT-5.6 Lunahigh	7.7	OpenAI	$1.017	18.68s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 3 Eingabe-Token 80,918 Ausgabe-Token 5,088 Denk-Token 150,910 Antwortzeit (Durchschnitt) 18.68s Antwortzeit (Gesamt) 411.05s Antwortzeit (Maximum) 111.09s Falsche Antwort: 7 Anti-KI-Tricks : 8.3 Programmierung : 5.5 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 5.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.6 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#49#49	DeepSeek V4 Flashhigh	7.7	DeepSeek	$0.042 ↓	49.75s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 5 Eingabe-Token 108,392 Ausgabe-Token 14,478 Denk-Token 153,687 Antwortzeit (Durchschnitt) 49.75s Antwortzeit (Gesamt) 1094.41s Antwortzeit (Maximum) 218.13s Falsche Antwort: 6 Anweisungen nicht befolgt: 2 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 7.8 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 4.1 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#50#50	DeepSeek V4 Prohigh	7.7	DeepSeek	$0.200	79.14s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 12 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 6 Eingabe-Token 90,748 Ausgabe-Token 10,462 Denk-Token 178,719 Antwortzeit (Durchschnitt) 79.14s Antwortzeit (Gesamt) 1740.97s Antwortzeit (Maximum) 416.76s Falsche Antwort: 6 Anweisungen nicht befolgt: 2 API-Fehler: 1 Zusätzliche Formatierung: 1 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 5.7 Programmierung : 6.3 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.6 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 7.8 Rätsellösen : 6.9 Werkzeugaufrufe : 9.8 Allgemeinwissen : 3.0
#52#52	Grok Build 0.1medium	7.6	X AI	$1.097	52.06s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 0 Eingabe-Token 106,751 Ausgabe-Token 7,993 Denk-Token 486,670 Antwortzeit (Durchschnitt) 52.06s Antwortzeit (Gesamt) 1145.27s Antwortzeit (Maximum) 252.69s Falsche Antwort: 5 Zusätzliche Formatierung: 3 Anti-KI-Tricks : 8.3 Programmierung : 5.7 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.4 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#53#53	GLM 5 Turbomedium	7.6	Z.ai	$0.323 ↑	23.00s
Modellkarte anzeigen Gesamttests 21 Falsche Tests 7 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 4 Eingabe-Token 35,593 Ausgabe-Token 12,245 Denk-Token 62,277 Antwortzeit (Durchschnitt) 23.00s Antwortzeit (Gesamt) 482.97s Antwortzeit (Maximum) 194.23s Falsche Antwort: 4 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 10.0 Programmierung : 8.2 Kombiniert : 5.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#54#54	GPT-5.6 Lunamedium	7.6	OpenAI	$0.352	7.28s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 1 Eingabe-Token 89,676 Ausgabe-Token 5,699 Denk-Token 37,980 Antwortzeit (Durchschnitt) 7.28s Antwortzeit (Gesamt) 160.27s Antwortzeit (Maximum) 29.85s Falsche Antwort: 8 Anti-KI-Tricks : 8.3 Programmierung : 5.4 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 5.1 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.8 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#56#56	Kimi K2.7 Codemedium	7.5	Moonshot AI	$0.740 ↓	84.25s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 4 Eingabe-Token 72,073 Ausgabe-Token 83,714 Denk-Token 178,793 Antwortzeit (Durchschnitt) 84.25s Antwortzeit (Gesamt) 1769.22s Antwortzeit (Maximum) 365.80s Falsche Antwort: 5 Zeitüberschreitung: 3 API-Fehler: 1 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 7.3 Programmierung : 7.8 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.5 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 5.9 Werkzeugaufrufe : 3.0 Allgemeinwissen : 3.0
#57#57	GPT-5.4 Nanomedium	7.5	OpenAI	$0.138	13.24s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 65.2% Instabile Tests 4 Eingabe-Token 82,819 Ausgabe-Token 7,100 Denk-Token 90,022 Antwortzeit (Durchschnitt) 13.24s Antwortzeit (Gesamt) 291.33s Antwortzeit (Maximum) 94.06s Falsche Antwort: 8 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 8.3 Programmierung : 6.1 Kombiniert : 9.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.9 Allgemeine Intelligenz : 4.5 Befolgung von Anweisungen : 9.8 Rätsellösen : 4.1 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#58#58	GPT-5.3 Chatnone	7.5	OpenAI	$0.571	6.88s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 68.2% Instabile Tests 5 Eingabe-Token 78,990 Ausgabe-Token 30,854 Denk-Token 0 Antwortzeit (Durchschnitt) 6.88s Antwortzeit (Gesamt) 151.31s Antwortzeit (Maximum) 18.33s Falsche Antwort: 7 Anweisungen nicht befolgt: 2 Anti-KI-Tricks : 6.7 Programmierung : 5.6 Kombiniert : 10.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.5 Allgemeine Intelligenz : 4.6 Befolgung von Anweisungen : 9.8 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#59#59	GPT-5.6 Terralow	7.5	OpenAI	$0.519	5.31s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 74.2% Instabile Tests 6 Eingabe-Token 80,295 Ausgabe-Token 4,714 Denk-Token 16,469 Antwortzeit (Durchschnitt) 5.31s Antwortzeit (Gesamt) 116.82s Antwortzeit (Maximum) 19.85s Falsche Antwort: 8 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.3 Programmierung : 6.6 Kombiniert : 8.7 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.8 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 4.7 Allgemeinwissen : 3.0
#60#60	GPT-5.4 Minimedium	7.5	OpenAI	$0.756	25.94s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 6 Eingabe-Token 97,155 Ausgabe-Token 6,211 Denk-Token 145,544 Antwortzeit (Durchschnitt) 25.94s Antwortzeit (Gesamt) 570.66s Antwortzeit (Maximum) 138.75s Falsche Antwort: 6 Anweisungen nicht befolgt: 3 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.6 Programmierung : 8.4 Kombiniert : 6.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 4.1 Allgemeine Intelligenz : 4.5 Befolgung von Anweisungen : 9.8 Rätsellösen : 7.8 Werkzeugaufrufe : 4.7 Allgemeinwissen : 3.0
#61#61	Qwen3.5 Plus 2026-02-15medium	7.5	Qwen	$0.437 ↓	89.19s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 8 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 71.2% Instabile Tests 4 Eingabe-Token 113,560 Ausgabe-Token 9,823 Denk-Token 250,881 Antwortzeit (Durchschnitt) 89.19s Antwortzeit (Gesamt) 1337.92s Antwortzeit (Maximum) 304.85s Falsche Antwort: 4 Zeitüberschreitung: 2 API-Fehler: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 8.2 Programmierung : 6.6 Kombiniert : 6.9 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 4.7 Befolgung von Anweisungen : 10.0 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#62#62	Qwen3.5-27Bmedium	7.4	Qwen	$0.981 ↓	111.94s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 72.7% Instabile Tests 5 Eingabe-Token 111,635 Ausgabe-Token 15,999 Denk-Token 598,430 Antwortzeit (Durchschnitt) 111.94s Antwortzeit (Gesamt) 2462.67s Antwortzeit (Maximum) 1026.43s Falsche Antwort: 4 Anweisungen nicht befolgt: 2 Zusätzliche Formatierung: 1 Ungültiger Werkzeugaufruf: 1 Zeitüberschreitung: 1 Anti-KI-Tricks : 8.7 Programmierung : 6.2 Kombiniert : 7.3 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 8.2 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#65#65	Gemini 3 Flash Previewlow	7.4	Google	$0.177	6.28s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 6 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 75.8% Instabile Tests 2 Eingabe-Token 123,684 Ausgabe-Token 9,572 Denk-Token 28,518 Antwortzeit (Durchschnitt) 6.28s Antwortzeit (Gesamt) 138.06s Antwortzeit (Maximum) 17.13s Falsche Antwort: 6 Anti-KI-Tricks : 10.0 Programmierung : 5.8 Kombiniert : 3.0 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 10.0 Werkzeugaufrufe : 10.0 Allgemeinwissen : 10.0
#66#66	KAT-Coder-Pro V2.5low	7.4	Kwaipilot	$0.387	19.47s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 11 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 69.7% Instabile Tests 8 Eingabe-Token 87,673 Ausgabe-Token 7,166 Denk-Token 101,474 Antwortzeit (Durchschnitt) 19.47s Antwortzeit (Gesamt) 428.31s Antwortzeit (Maximum) 209.15s Falsche Antwort: 10 API-Fehler: 1 Anti-KI-Tricks : 6.9 Programmierung : 7.8 Kombiniert : 6.4 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 4.1 Allgemeine Intelligenz : 4.1 Befolgung von Anweisungen : 10.0 Rätsellösen : 6.4 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#67#67	Claude Sonnet 4.6none	7.3	Anthropic	$0.661	8.12s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 10 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 57.6% Instabile Tests 1 Eingabe-Token 123,264 Ausgabe-Token 19,362 Denk-Token 0 Antwortzeit (Durchschnitt) 8.12s Antwortzeit (Gesamt) 121.78s Antwortzeit (Maximum) 51.18s Falsche Antwort: 5 Zusätzliche Formatierung: 4 Anweisungen nicht befolgt: 1 Anti-KI-Tricks : 4.8 Programmierung : 5.5 Kombiniert : 9.8 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 7.7 Allgemeine Intelligenz : 6.1 Befolgung von Anweisungen : 6.5 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#68#68	Gemini 3.1 Flash Lite Previewmedium	7.3	Google	$0.115	4.61s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 59.1% Instabile Tests 0 Eingabe-Token 117,480 Ausgabe-Token 10,589 Denk-Token 46,394 Antwortzeit (Durchschnitt) 4.61s Antwortzeit (Gesamt) 101.39s Antwortzeit (Maximum) 18.34s Falsche Antwort: 7 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 9.1 Programmierung : 5.5 Kombiniert : 7.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 3.0 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 10.0 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#69#69	Gemini 3.1 Flash Litemedium	7.3	Google	$0.117	4.27s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 62.1% Instabile Tests 2 Eingabe-Token 104,918 Ausgabe-Token 9,168 Denk-Token 51,130 Antwortzeit (Durchschnitt) 4.27s Antwortzeit (Gesamt) 94.02s Antwortzeit (Maximum) 26.22s Falsche Antwort: 7 Anweisungen nicht befolgt: 1 Ungültiger Werkzeugaufruf: 1 Anti-KI-Tricks : 9.1 Programmierung : 5.5 Kombiniert : 7.2 Datenanalyse und -extraktion : 10.0 Domänenspezifisch : 2.9 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.6 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0
#70#70	Claude Opus 4.8none	7.3	Anthropic	$1.166	4.91s
Modellkarte anzeigen Gesamttests 22 Falsche Tests 9 Zuverlässigkeit 10.0 Erfolgsquote pro Versuch 63.6% Instabile Tests 2 Eingabe-Token 149,206 Ausgabe-Token 16,797 Denk-Token 0 Antwortzeit (Durchschnitt) 4.91s Antwortzeit (Gesamt) 108.03s Antwortzeit (Maximum) 35.03s Falsche Antwort: 4 Zusätzliche Formatierung: 3 Anweisungen nicht befolgt: 1 Keine Antwort: 1 Anti-KI-Tricks : 6.5 Programmierung : 5.5 Kombiniert : 9.8 Datenanalyse und -extraktion : 7.3 Domänenspezifisch : 5.3 Allgemeine Intelligenz : 10.0 Befolgung von Anweisungen : 9.9 Rätsellösen : 7.7 Werkzeugaufrufe : 10.0 Allgemeinwissen : 3.0

←

1 2 3 8

→

Schnellvergleich

Gemini 3.6 FlashmediumvsGemini 3.6 Flashhigh Gemini 3.6 FlashhighvsGemini 3 Flash Previewmedium Gemini 3 Flash PreviewmediumvsGemini 3.5 Flashhigh Gemini 3.5 FlashhighvsGPT-5.6 Sollow GPT-5.6 SollowvsGemini 3.6 Flashlow Gemini 3.6 FlashlowvsGPT-5.6 Solmedium GPT-5.6 SolmediumvsGPT-5.6 Solhigh GPT-5.6 SolhighvsGPT-5.5low GPT-5.5lowvsGemini 3.1 Pro Previewmedium Gemini 3.1 Pro PreviewmediumvsQwen3.7 Maxmedium Qwen3.7 MaxmediumvsGemini 3.5 Flashmedium Gemini 3.5 FlashmediumvsGPT-5.5medium

AI Benchy Bestenliste

Modelle filtern

Schnellvergleich