| Anti-KI-Tricks | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Keine fehlgeschlagenen Antworten. Antwortzeit (Durchschnitt) 3496ms Antwortzeit (Maximum) 4305ms Antwortzeit (Gesamt) 10487ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% MoonshotAI: Kimi K2.5 - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 10.00 Durchschnittswert über alle Benchmark-Tests. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 1.00 1.00 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 4.41 4.41 10.00 | 100.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 2 0 2 | 6.23 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Hinweis: Bei einigen Gemini-Modellen ist nur ein teilweiser Begründungstext verfügbar, daher kann der Reasoning-Score zu niedrig ausfallen. Rang: #14/19 28% Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 10.00 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.89 Z.ai: GLM 5 - Schlussfolgern (medium) 9.83 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.83 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 6.23 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Gesamtkosten Rang: #16/29 46% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 OpenAI: GPT-4o-mini - Ohne Schlussfolgern $0.00018 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00020 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00024 xAI: Grok 4.1 Fast - Ohne Schlussfolgern $0.00049 Google: Gemini 3 Flash Preview - Schlussfolgern (low) $0.00844 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) $0.05049 $0.00000 $0.05049 |
| Datenanalyse und -extraktion | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Keine fehlgeschlagenen Antworten. Antwortzeit (Durchschnitt) 9460ms Antwortzeit (Maximum) 14717ms Antwortzeit (Gesamt) 18919ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 10.00 Durchschnittswert über alle Benchmark-Tests. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 0.50 0.50 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Z.ai: GLM 5 - Schlussfolgern (medium) 5.56 5.56 10.00 | 100.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern 16.7% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 Z.ai: GLM 5 - Schlussfolgern (medium) 1 0 1 | 4.73 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Hinweis: Bei einigen Gemini-Modellen ist nur ein teilweiser Begründungstext verfügbar, daher kann der Reasoning-Score zu niedrig ausfallen. Rang: #17/19 11% OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 Z.ai: GLM 4.7 Flash - Schlussfolgern (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.83 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.83 Z.ai: GLM 5 - Schlussfolgern (medium) 9.80 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 4.73 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Gesamtkosten Rang: #18/29 39% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00029 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00050 OpenAI: gpt-oss-120b - Schlussfolgern (medium) $0.00052 Google: Gemini 3 Flash Preview - Schlussfolgern (low) $0.01354 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) $0.07755 $0.00000 $0.07755 |
| Domänenspezifisch | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Falsche Antwort: 2 Antwortzeit (Durchschnitt) 8314ms Antwortzeit (Maximum) 14399ms Antwortzeit (Gesamt) 24941ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 66.7% Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 66.7% Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 66.7% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 66.7% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 33.3% Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 0.0% 0.0% 100.0% | 4.00 Durchschnittswert über alle Benchmark-Tests. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 7.00 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 7.00 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 7.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 7.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 4.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 1.00 1.00 10.00 | 4.41 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 10.00 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 4.41 4.41 10.00 | 55.5% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #11/29 64% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 66.7% Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 66.7% Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 66.7% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 66.7% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 55.5% Z.ai: GLM 5 - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 2 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 0 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 2 0 2 | 1.83 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Hinweis: Bei einigen Gemini-Modellen ist nur ein teilweiser Begründungstext verfügbar, daher kann der Reasoning-Score zu niedrig ausfallen. Rang: #18/19 6% Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 8.72 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 8.53 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 8.44 Z.ai: GLM 5 - Schlussfolgern (medium) 8.43 Z.ai: GLM 4.7 Flash - Schlussfolgern (medium) 8.21 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 1.83 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Gesamtkosten Rang: #18/29 39% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00005 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00008 Qwen: Qwen3 Coder Next - Ohne Schlussfolgern $0.00010 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00010 Google: Gemini 3 Flash Preview - Schlussfolgern (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) $0.64205 $0.00000 $0.64205 |
| Befolgung von Anweisungen | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Anweisungen nicht befolgt: 1 Antwortzeit (Durchschnitt) 7016ms Antwortzeit (Maximum) 7350ms Antwortzeit (Gesamt) 14031ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.2 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 50.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 7.50 Durchschnittswert über alle Benchmark-Tests. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 Z.ai: GLM 5 - Ohne Schlussfolgern 10.00 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 7.50 xAI: Grok 4.1 Fast - Ohne Schlussfolgern 1.00 1.00 10.00 | 9.99 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #17/29 43% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.2 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 9.99 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 5.80 5.80 10.00 | 50.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #19/29 36% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.2 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 50.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 1 0 1 | 5.00 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Hinweis: Bei einigen Gemini-Modellen ist nur ein teilweiser Begründungstext verfügbar, daher kann der Reasoning-Score zu niedrig ausfallen. Rang: #17/19 11% Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 Z.ai: GLM 5 - Schlussfolgern (medium) 9.75 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.67 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.50 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 9.50 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 5.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Gesamtkosten Rang: #20/29 32% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00006 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00008 Qwen: Qwen3 Coder Next - Ohne Schlussfolgern $0.00013 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00014 Google: Gemini 3 Flash Preview - Schlussfolgern (low) $0.00878 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Keine fehlgeschlagenen Antworten. Antwortzeit (Durchschnitt) 6440ms Antwortzeit (Maximum) 10274ms Antwortzeit (Gesamt) 19319ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% StepFun: Step 3.5 Flash - Schlussfolgern (medium) 0.0% 0.0% 100.0% | 10.00 Durchschnittswert über alle Benchmark-Tests. Rang: #4/29 89% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 1.00 1.00 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 MiniMax: MiniMax M2.5 - Schlussfolgern (medium) 4.79 4.79 10.00 | 100.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-4o-mini - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 OpenAI: GPT-5 Nano - Schlussfolgern (medium) 2 0 2 | 7.50 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Hinweis: Bei einigen Gemini-Modellen ist nur ein teilweiser Begründungstext verfügbar, daher kann der Reasoning-Score zu niedrig ausfallen. Rang: #13/19 33% Z.ai: GLM 5 - Schlussfolgern (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.44 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.44 MoonshotAI: Kimi K2.5 - Schlussfolgern (medium) 9.26 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.22 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 7.50 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Gesamtkosten Rang: #17/29 43% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00008 OpenAI: GPT-4o-mini - Ohne Schlussfolgern $0.00028 xAI: Grok 4.1 Fast - Ohne Schlussfolgern $0.00053 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00058 Google: Gemini 3 Flash Preview - Schlussfolgern (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) $0.05508 $0.00000 $0.05508 |