| Anti-AI-trucs | Een test is alleen volledig geslaagd als alle herhalingen slagen. Geen mislukte antwoorden. Responstijd (gem.) 3496ms Responstijd (max) 4305ms Responstijd (totaal) 10487ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% MoonshotAI: Kimi K2.5 - Zonder redenering 0.0% 0.0% 100.0% | 10.00 Gemiddelde score over alle benchmarktests. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Z.ai: GLM 4.7 Flash - Zonder redenering 1.00 1.00 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Anthropic: Claude Opus 4.6 - Redenering (medium) 4.41 4.41 10.00 | 100.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 Anthropic: Claude Opus 4.6 - Redenering (medium) 2 0 2 | 6.23 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Opmerking: bij sommige Gemini-modellen is slechts gedeeltelijke redeneertekst beschikbaar, waardoor de redeneerscore lager kan uitvallen. Rang: #14/19 28% Anthropic: Claude Opus 4.6 - Redenering (medium) 10.00 OpenAI: gpt-oss-120b - Redenering (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.89 Z.ai: GLM 5 - Redenering (medium) 9.83 StepFun: Step 3.5 Flash - Redenering (medium) 9.83 Google: Gemini 3 Flash Preview - Redenering (low) 6.23 Qwen: Qwen3 Coder Next - Redenering (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Totale kosten Rang: #16/29 46% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 OpenAI: GPT-4o-mini - Zonder redenering $0.00018 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00020 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00024 xAI: Grok 4.1 Fast - Zonder redenering $0.00049 Google: Gemini 3 Flash Preview - Redenering (low) $0.00844 Anthropic: Claude Opus 4.6 - Redenering (medium) $0.05049 $0.00000 $0.05049 |
| Gegevensparsering en extractie | Een test is alleen volledig geslaagd als alle herhalingen slagen. Geen mislukte antwoorden. Responstijd (gem.) 9460ms Responstijd (max) 14717ms Responstijd (totaal) 18919ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% Z.ai: GLM 4.7 Flash - Zonder redenering 0.0% 0.0% 100.0% | 10.00 Gemiddelde score over alle benchmarktests. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Z.ai: GLM 4.7 Flash - Zonder redenering 0.50 0.50 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Z.ai: GLM 5 - Redenering (medium) 5.56 5.56 10.00 | 100.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% Xiaomi: MiMo-V2-Flash - Zonder redenering 16.7% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 Z.ai: GLM 5 - Redenering (medium) 1 0 1 | 4.73 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Opmerking: bij sommige Gemini-modellen is slechts gedeeltelijke redeneertekst beschikbaar, waardoor de redeneerscore lager kan uitvallen. Rang: #17/19 11% OpenAI: gpt-oss-120b - Redenering (medium) 10.00 Z.ai: GLM 4.7 Flash - Redenering (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.83 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.83 Z.ai: GLM 5 - Redenering (medium) 9.80 Google: Gemini 3 Flash Preview - Redenering (low) 4.73 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Totale kosten Rang: #18/29 39% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Redenering (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00029 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00050 OpenAI: gpt-oss-120b - Redenering (medium) $0.00052 Google: Gemini 3 Flash Preview - Redenering (low) $0.01354 Anthropic: Claude Opus 4.6 - Redenering (medium) $0.07755 $0.00000 $0.07755 |
| Domeinspecifiek | Een test is alleen volledig geslaagd als alle herhalingen slagen. Verkeerd antwoord: 2 Responstijd (gem.) 8314ms Responstijd (max) 14399ms Responstijd (totaal) 24941ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 66.7% Google: Gemini 3 Flash Preview - Zonder redenering 66.7% Anthropic: Claude Sonnet 4.6 - Zonder redenering 66.7% Z.ai: GLM 4.7 Flash - Zonder redenering 66.7% Google: Gemini 3 Flash Preview - Redenering (low) 33.3% Anthropic: Claude Sonnet 4.6 - Redenering (medium) 0.0% 0.0% 100.0% | 4.00 Gemiddelde score over alle benchmarktests. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 7.00 Google: Gemini 3 Flash Preview - Zonder redenering 7.00 Anthropic: Claude Sonnet 4.6 - Zonder redenering 7.00 Z.ai: GLM 4.7 Flash - Zonder redenering 7.00 Google: Gemini 3 Flash Preview - Redenering (low) 4.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 1.00 1.00 10.00 | 4.41 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Zonder redenering 10.00 Anthropic: Claude Sonnet 4.6 - Zonder redenering 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 4.41 4.41 10.00 | 55.5% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #11/29 64% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 66.7% Google: Gemini 3 Flash Preview - Zonder redenering 66.7% Anthropic: Claude Sonnet 4.6 - Zonder redenering 66.7% Z.ai: GLM 4.7 Flash - Zonder redenering 66.7% Google: Gemini 3 Flash Preview - Redenering (low) 55.5% Z.ai: GLM 5 - Zonder redenering 0.0% 0.0% 100.0% | 2 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Zonder redenering 0 Anthropic: Claude Sonnet 4.6 - Zonder redenering 0 Google: Gemini 3 Flash Preview - Redenering (low) 2 0 2 | 1.83 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Opmerking: bij sommige Gemini-modellen is slechts gedeeltelijke redeneertekst beschikbaar, waardoor de redeneerscore lager kan uitvallen. Rang: #18/19 6% Xiaomi: MiMo-V2-Flash - Redenering (medium) 8.72 OpenAI: gpt-oss-120b - Redenering (medium) 8.53 StepFun: Step 3.5 Flash - Redenering (medium) 8.44 Z.ai: GLM 5 - Redenering (medium) 8.43 Z.ai: GLM 4.7 Flash - Redenering (medium) 8.21 Google: Gemini 3 Flash Preview - Redenering (low) 1.83 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Totale kosten Rang: #18/29 39% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00005 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00008 Qwen: Qwen3 Coder Next - Zonder redenering $0.00010 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00010 Google: Gemini 3 Flash Preview - Redenering (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Redenering (medium) $0.64205 $0.00000 $0.64205 |
| Instructies opvolgen | Een test is alleen volledig geslaagd als alle herhalingen slagen. Instructies niet gevolgd: 1 Responstijd (gem.) 7016ms Responstijd (max) 7350ms Responstijd (totaal) 14031ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% OpenAI: GPT-5.2 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 50.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 7.50 Gemiddelde score over alle benchmarktests. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 Z.ai: GLM 5 - Zonder redenering 10.00 OpenAI: gpt-oss-120b - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 7.50 xAI: Grok 4.1 Fast - Zonder redenering 1.00 1.00 10.00 | 9.99 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #17/29 43% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 10.00 OpenAI: GPT-5.2 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 9.99 Xiaomi: MiMo-V2-Flash - Redenering (medium) 5.80 5.80 10.00 | 50.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #19/29 36% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% OpenAI: GPT-5.2 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 50.0% xAI: Grok 4.1 Fast - Zonder redenering 0.0% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 Google: Gemini 3 Flash Preview - Zonder redenering 1 0 1 | 5.00 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Opmerking: bij sommige Gemini-modellen is slechts gedeeltelijke redeneertekst beschikbaar, waardoor de redeneerscore lager kan uitvallen. Rang: #17/19 11% Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 Z.ai: GLM 5 - Redenering (medium) 9.75 StepFun: Step 3.5 Flash - Redenering (medium) 9.67 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.50 OpenAI: gpt-oss-120b - Redenering (medium) 9.50 Google: Gemini 3 Flash Preview - Redenering (low) 5.00 OpenAI: GPT-5.3-Codex - Redenering (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Totale kosten Rang: #20/29 32% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00006 Xiaomi: MiMo-V2-Flash - Zonder redenering $0.00008 Qwen: Qwen3 Coder Next - Zonder redenering $0.00013 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00014 Google: Gemini 3 Flash Preview - Redenering (low) $0.00878 Google: Gemini 3.1 Pro Preview - Redenering (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Een test is alleen volledig geslaagd als alle herhalingen slagen. Geen mislukte antwoorden. Responstijd (gem.) 6440ms Responstijd (max) 10274ms Responstijd (totaal) 19319ms Een test is alleen volledig geslaagd als alle herhalingen slagen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% StepFun: Step 3.5 Flash - Redenering (medium) 0.0% 0.0% 100.0% | 10.00 Gemiddelde score over alle benchmarktests. Rang: #4/29 89% Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 10.00 Xiaomi: MiMo-V2-Flash - Redenering (medium) 1.00 1.00 10.00 | 10.00 Consistentie geeft stabiliteit tussen herhalingen weer (10 = zeer consistent, zelfs als consequent fout). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 10.00 Google: Gemini 3.1 Pro Preview - Redenering (medium) 10.00 Google: Gemini 3 Pro Preview - Redenering (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 10.00 Google: Gemini 3 Flash Preview - Redenering (low) 10.00 MiniMax: MiniMax M2.5 - Redenering (medium) 4.79 4.79 10.00 | 100.0% Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle herhalingen. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 100.0% Google: Gemini 3.1 Pro Preview - Redenering (medium) 100.0% Google: Gemini 3 Pro Preview - Redenering (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 100.0% Google: Gemini 3 Flash Preview - Redenering (low) 100.0% OpenAI: GPT-4o-mini - Zonder redenering 0.0% 0.0% 100.0% | 0 Instabiele tests hadden gemengde uitkomsten over herhalingen (minstens één geslaagd en één gefaald). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Redenering (medium) 0 Google: Gemini 3.1 Pro Preview - Redenering (medium) 0 Google: Gemini 3 Pro Preview - Redenering (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) 0 Google: Gemini 3 Flash Preview - Redenering (low) 0 OpenAI: GPT-5 Nano - Redenering (medium) 2 0 2 | 7.50 Meet duidelijkheid, efficiëntie en consistentie van redeneren, los van de uiteindelijke juistheid van het antwoord. Opmerking: bij sommige Gemini-modellen is slechts gedeeltelijke redeneertekst beschikbaar, waardoor de redeneerscore lager kan uitvallen. Rang: #13/19 33% Z.ai: GLM 5 - Redenering (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Redenering (medium) 9.44 Anthropic: Claude Opus 4.6 - Redenering (medium) 9.44 MoonshotAI: Kimi K2.5 - Redenering (medium) 9.26 StepFun: Step 3.5 Flash - Redenering (medium) 9.22 Google: Gemini 3 Flash Preview - Redenering (low) 7.50 Qwen: Qwen3 Coder Next - Redenering (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Totale kosten Rang: #17/29 43% StepFun: Step 3.5 Flash - Redenering (medium) $0.00000 Z.ai: GLM 4.7 Flash - Zonder redenering $0.00008 OpenAI: GPT-4o-mini - Zonder redenering $0.00028 xAI: Grok 4.1 Fast - Zonder redenering $0.00053 Qwen: Qwen3 Coder Next - Redenering (medium) $0.00058 Google: Gemini 3 Flash Preview - Redenering (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Redenering (medium) $0.05508 $0.00000 $0.05508 |