| Anti-AI-trucs | Een test is alleen volledig geslaagd als alle herhalingen slagen. Geen mislukte antwoorden. Responstijd (gem.) 4687ms Responstijd (max) 6680ms Responstijd (totaal) 14061ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 100.0% MoonshotAI: Kimi K2.5 - Zonder redenering 0.0% 0.0% 100.0% | 10.00 Gemiddelde score over alle benchmarktests. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 Z.ai: GLM 4.7 Flash - Zonder redenering 1.00 1.00 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 Anthropic: Claude Opus 4.6 - Redenering (medium) 4.41 4.41 10.00 | 100.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 100.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 OpenAI: GPT-5.3-Codex - Redenering (medium) 0 Anthropic: Claude Opus 4.6 - Redenering (medium) 2 0 2 | 6.00 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Rang: #15/19 22% Anthropic: Claude Opus 4.6 - Redenering (medium) 10.00 OpenAI: gpt-oss-120b - Redenering (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.89 Z.ai: GLM 5 - Redenering (medium) 9.83 StepFun: Step 3.5 Flash - Redenering (medium) 9.83 OpenAI: GPT-5.3-Codex - Redenering (medium) 6.00 Qwen: Qwen3 Coder Next - Redenering (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 Totale kosten Rang: #24/29 18% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 OpenAI: GPT-4o-mini - Zonder redenering $0.00018 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00020 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00024 xAI: Grok 4.1 Fast - Zonder redenering $0.00049 OpenAI: GPT-5.3-Codex - Redenering (medium) $0.02371 Anthropic: Claude Opus 4.6 - Redenering (medium) $0.05049 $0.00000 $0.05049 |
| Gegevensparsering en extractie | Een test is alleen volledig geslaagd als alle herhalingen slagen. Geen mislukte antwoorden. Responstijd (gem.) 3180ms Responstijd (max) 3585ms Responstijd (totaal) 6360ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 100.0% Z.ai: GLM 4.7 Flash - Zonder redenering 0.0% 0.0% 100.0% | 10.00 Gemiddelde score over alle benchmarktests. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 Z.ai: GLM 4.7 Flash - Zonder redenering 0.50 0.50 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 Z.ai: GLM 5 - Redenering (medium) 5.56 5.56 10.00 | 100.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 100.0% Xiaomi: MiMo-V2-Flash - Zonder redenering 16.7% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 OpenAI: GPT-5.3-Codex - Redenering (medium) 0 Z.ai: GLM 5 - Redenering (medium) 1 0 1 | 1.25 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Rang: #19/19 0% OpenAI: gpt-oss-120b - Redenering (medium) 10.00 Z.ai: GLM 4.7 Flash - Redenering (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.83 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.83 Z.ai: GLM 5 - Redenering (medium) 9.80 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 Totale kosten Rang: #23/29 21% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Redenering (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00029 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00050 OpenAI: gpt-oss-120b - Redenering (medium) $0.00052 OpenAI: GPT-5.3-Codex - Redenering (medium) $0.02600 Anthropic: Claude Opus 4.6 - Redenering (medium) $0.07755 $0.00000 $0.07755 |
| Domeinspecifiek | Een test is alleen volledig geslaagd als alle herhalingen slagen. Verkeerd antwoord: 2 Responstijd (gem.) 64314ms Responstijd (max) 100927ms Responstijd (totaal) 192942ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 66.7% Google: Gemini 3 Flash Preview - Zonder redenering 66.7% Anthropic: Claude Sonnet 4.6 - Zonder redenering 66.7% Z.ai: GLM 4.7 Flash - Zonder redenering 66.7% OpenAI: GPT-5.3-Codex - Redenering (medium) 33.3% Anthropic: Claude Sonnet 4.6 - Redenering (medium) 0.0% 0.0% 100.0% | 4.00 Gemiddelde score over alle benchmarktests. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 7.00 Google: Gemini 3 Flash Preview - Zonder redenering 7.00 Anthropic: Claude Sonnet 4.6 - Zonder redenering 7.00 Z.ai: GLM 4.7 Flash - Zonder redenering 7.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 4.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 1.00 1.00 10.00 | 7.21 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Zonder redenering 10.00 Anthropic: Claude Sonnet 4.6 - Zonder redenering 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 7.21 Google: Gemini 3 Flash Preview - Redenering (low) 4.41 4.41 10.00 | 55.6% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 66.7% Google: Gemini 3 Flash Preview - Zonder redenering 66.7% Anthropic: Claude Sonnet 4.6 - Zonder redenering 66.7% Z.ai: GLM 4.7 Flash - Zonder redenering 66.7% OpenAI: GPT-5.3-Codex - Redenering (medium) 55.6% Z.ai: GLM 5 - Zonder redenering 0.0% 0.0% 100.0% | 1 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Zonder redenering 0 Anthropic: Claude Sonnet 4.6 - Zonder redenering 0 OpenAI: GPT-5.3-Codex - Redenering (medium) 1 Google: Gemini 3 Flash Preview - Redenering (low) 2 0 2 | 1.00 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Rang: #19/19 0% Xiaomi: MiMo-V2-Flash - Redenering (medium) 8.72 OpenAI: gpt-oss-120b - Redenering (medium) 8.53 StepFun: Step 3.5 Flash - Redenering (medium) 8.44 Z.ai: GLM 5 - Redenering (medium) 8.43 Z.ai: GLM 4.7 Flash - Redenering (medium) 8.21 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 Totale kosten Rang: #27/29 7% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00005 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00008 Qwen: Qwen3 Coder Next - Zonder redenering $0.00010 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00010 OpenAI: GPT-5.3-Codex - Redenering (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - Redenering (medium) $0.64205 $0.00000 $0.64205 |
| Instructies opvolgen | Een test is alleen volledig geslaagd als alle herhalingen slagen. Instructies niet gevolgd: 1 Responstijd (gem.) 3037ms Responstijd (max) 3436ms Responstijd (totaal) 6074ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% OpenAI: GPT-5.2 - Redenering (medium) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 50.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 9.00 Gemiddelde score over alle benchmarktests. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 Z.ai: GLM 5 - Zonder redenering 10.00 OpenAI: gpt-oss-120b - Redenering (medium) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 9.00 xAI: Grok 4.1 Fast - Zonder redenering 1.00 1.00 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #4/29 89% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 OpenAI: GPT-5.2 - Redenering (medium) 10.00 Xiaomi: MiMo-V2-Flash - Redenering (medium) 5.80 5.80 10.00 | 50.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #20/29 32% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% OpenAI: GPT-5.2 - Redenering (medium) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 50.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 OpenAI: GPT-5.3-Codex - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Zonder redenering 1 0 1 | 1.00 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Rang: #19/19 0% Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 Z.ai: GLM 5 - Redenering (medium) 9.75 StepFun: Step 3.5 Flash - Redenering (medium) 9.67 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.50 OpenAI: gpt-oss-120b - Redenering (medium) 9.50 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 Totale kosten Rang: #23/29 21% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00006 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00008 Qwen: Qwen3 Coder Next - Zonder redenering $0.00013 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00014 OpenAI: GPT-5.3-Codex - Redenering (medium) $0.01216 Google: Gemini 3.1 Pro Preview - Redenering (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Een test is alleen volledig geslaagd als alle herhalingen slagen. Instructies niet gevolgd: 1 Responstijd (gem.) 4610ms Responstijd (max) 7191ms Responstijd (totaal) 13830ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 66.7% StepFun: Step 3.5 Flash - Redenering (medium) 0.0% 0.0% 100.0% | 7.00 Gemiddelde score over alle benchmarktests. Rang: #9/29 71% Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 7.00 Xiaomi: MiMo-V2-Flash - Redenering (medium) 1.00 1.00 10.00 | 7.38 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #20/29 32% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 7.38 MiniMax: MiniMax M2.5 - Redenering (medium) 4.79 4.79 10.00 | 77.8% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-5.3-Codex - Redenering (medium) 77.8% OpenAI: GPT-4o-mini - Zonder redenering 0.0% 0.0% 100.0% | 1 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #18/29 39% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 OpenAI: GPT-5.3-Codex - Redenering (medium) 1 OpenAI: GPT-5 Nano - Redenering (medium) 2 0 2 | 6.00 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Rang: #18/19 6% Z.ai: GLM 5 - Redenering (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.44 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.44 MoonshotAI: Kimi K2.5 - Redenering (medium) 9.26 StepFun: Step 3.5 Flash - Redenering (medium) 9.22 OpenAI: GPT-5.3-Codex - Redenering (medium) 6.00 Qwen: Qwen3 Coder Next - Redenering (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 Totale kosten Rang: #25/29 14% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00008 OpenAI: GPT-4o-mini - Zonder redenering $0.00028 xAI: Grok 4.1 Fast - Zonder redenering $0.00053 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00058 OpenAI: GPT-5.3-Codex - Redenering (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) $0.05508 $0.00000 $0.05508 |