| Anti-KI-Tricks | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Keine fehlgeschlagenen Antworten. Antwortzeit (Durchschnitt) 4687ms Antwortzeit (Maximum) 6680ms Antwortzeit (Gesamt) 14061ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 100.0% MoonshotAI: Kimi K2.5 - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 10.00 Durchschnittswert über alle Benchmark-Tests. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 1.00 1.00 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 4.41 4.41 10.00 | 100.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 100.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 0 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 2 0 2 | 6.00 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Rang: #15/19 22% Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 10.00 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.89 Z.ai: GLM 5 - Schlussfolgern (medium) 9.83 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.83 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 6.00 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 Gesamtkosten Rang: #24/29 18% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 OpenAI: GPT-4o-mini - Ohne Schlussfolgern $0.00018 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00020 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00024 xAI: Grok 4.1 Fast - Ohne Schlussfolgern $0.00049 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) $0.02371 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) $0.05049 $0.00000 $0.05049 |
| Datenanalyse und -extraktion | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Keine fehlgeschlagenen Antworten. Antwortzeit (Durchschnitt) 3180ms Antwortzeit (Maximum) 3585ms Antwortzeit (Gesamt) 6360ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 100.0% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 10.00 Durchschnittswert über alle Benchmark-Tests. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 0.50 0.50 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 Z.ai: GLM 5 - Schlussfolgern (medium) 5.56 5.56 10.00 | 100.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 100.0% Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern 16.7% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 0 Z.ai: GLM 5 - Schlussfolgern (medium) 1 0 1 | 1.25 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Rang: #19/19 0% OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 Z.ai: GLM 4.7 Flash - Schlussfolgern (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.83 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.83 Z.ai: GLM 5 - Schlussfolgern (medium) 9.80 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 Gesamtkosten Rang: #23/29 21% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00029 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00050 OpenAI: gpt-oss-120b - Schlussfolgern (medium) $0.00052 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) $0.02600 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) $0.07755 $0.00000 $0.07755 |
| Domänenspezifisch | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Falsche Antwort: 2 Antwortzeit (Durchschnitt) 64314ms Antwortzeit (Maximum) 100927ms Antwortzeit (Gesamt) 192942ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 66.7% Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 66.7% Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 66.7% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 66.7% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 33.3% Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 0.0% 0.0% 100.0% | 4.00 Durchschnittswert über alle Benchmark-Tests. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 7.00 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 7.00 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 7.00 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 7.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 4.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 1.00 1.00 10.00 | 7.21 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 10.00 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 7.21 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 4.41 4.41 10.00 | 55.6% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 66.7% Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 66.7% Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 66.7% Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern 66.7% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 55.6% Z.ai: GLM 5 - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 1 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 0 Anthropic: Claude Sonnet 4.6 - Ohne Schlussfolgern 0 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 2 0 2 | 1.00 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Rang: #19/19 0% Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 8.72 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 8.53 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 8.44 Z.ai: GLM 5 - Schlussfolgern (medium) 8.43 Z.ai: GLM 4.7 Flash - Schlussfolgern (medium) 8.21 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 Gesamtkosten Rang: #27/29 7% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00005 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00008 Qwen: Qwen3 Coder Next - Ohne Schlussfolgern $0.00010 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00010 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) $0.64205 $0.00000 $0.64205 |
| Befolgung von Anweisungen | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Anweisungen nicht befolgt: 1 Antwortzeit (Durchschnitt) 3037ms Antwortzeit (Maximum) 3436ms Antwortzeit (Gesamt) 6074ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.2 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 50.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 9.00 Durchschnittswert über alle Benchmark-Tests. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 Z.ai: GLM 5 - Ohne Schlussfolgern 10.00 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 9.00 xAI: Grok 4.1 Fast - Ohne Schlussfolgern 1.00 1.00 10.00 | 10.00 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #4/29 89% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.2 - Schlussfolgern (medium) 10.00 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 5.80 5.80 10.00 | 50.0% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #20/29 32% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.2 - Schlussfolgern (medium) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 50.0% xAI: Grok 4.1 Fast - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 0 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Ohne Schlussfolgern 1 0 1 | 1.00 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Rang: #19/19 0% Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 Z.ai: GLM 5 - Schlussfolgern (medium) 9.75 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.67 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.50 OpenAI: gpt-oss-120b - Schlussfolgern (medium) 9.50 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 Gesamtkosten Rang: #23/29 21% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00006 Xiaomi: MiMo-V2-Flash - Ohne Schlussfolgern $0.00008 Qwen: Qwen3 Coder Next - Ohne Schlussfolgern $0.00013 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00014 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) $0.01216 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Anweisungen nicht befolgt: 1 Antwortzeit (Durchschnitt) 4610ms Antwortzeit (Maximum) 7191ms Antwortzeit (Gesamt) 13830ms Ein Test gilt nur dann als vollständig bestanden, wenn alle Wiederholungen bestanden wurden. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 66.7% StepFun: Step 3.5 Flash - Schlussfolgern (medium) 0.0% 0.0% 100.0% | 7.00 Durchschnittswert über alle Benchmark-Tests. Rang: #9/29 71% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 7.00 Xiaomi: MiMo-V2-Flash - Schlussfolgern (medium) 1.00 1.00 10.00 | 7.38 Der Konsistenzwert zeigt die Stabilität zwischen Wiederholungen (10 = sehr konsistent, auch wenn konsistent falsch). Rang: #20/29 32% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 10.00 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 10.00 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 10.00 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 7.38 MiniMax: MiniMax M2.5 - Schlussfolgern (medium) 4.79 4.79 10.00 | 77.8% Erfolgsquote pro Versuch = bestandene Versuche / Gesamtversuche über alle Wiederholungen. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 100.0% Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 100.0% Google: Gemini 3 Flash Preview - Schlussfolgern (low) 100.0% OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 77.8% OpenAI: GPT-4o-mini - Ohne Schlussfolgern 0.0% 0.0% 100.0% | 1 Instabile Tests hatten gemischte Ergebnisse über Wiederholungen hinweg (mindestens ein Erfolg und ein Fehlschlag). Rang: #18/29 39% Google: Gemini 3 Flash Preview - Schlussfolgern (medium) 0 Google: Gemini 3.1 Pro Preview - Schlussfolgern (medium) 0 Google: Gemini 3 Pro Preview - Schlussfolgern (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) 0 Google: Gemini 3 Flash Preview - Schlussfolgern (low) 0 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 1 OpenAI: GPT-5 Nano - Schlussfolgern (medium) 2 0 2 | 6.00 Misst Klarheit, Effizienz und Konsistenz der Begründung unabhängig von der finalen Antwortkorrektheit. Rang: #18/19 6% Z.ai: GLM 5 - Schlussfolgern (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Schlussfolgern (medium) 9.44 Anthropic: Claude Opus 4.6 - Schlussfolgern (medium) 9.44 MoonshotAI: Kimi K2.5 - Schlussfolgern (medium) 9.26 StepFun: Step 3.5 Flash - Schlussfolgern (medium) 9.22 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) 6.00 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 Gesamtkosten Rang: #25/29 14% StepFun: Step 3.5 Flash - Schlussfolgern (medium) $0.00000 Z.ai: GLM 4.7 Flash - Ohne Schlussfolgern $0.00008 OpenAI: GPT-4o-mini - Ohne Schlussfolgern $0.00028 xAI: Grok 4.1 Fast - Ohne Schlussfolgern $0.00053 Qwen: Qwen3 Coder Next - Schlussfolgern (medium) $0.00058 OpenAI: GPT-5.3-Codex - Schlussfolgern (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - Schlussfolgern (medium) $0.05508 $0.00000 $0.05508 |