| Astuces anti-IA | Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Aucune réponse échouée. Temps de réponse (moy.) 3496ms Temps de réponse (max) 4305ms Temps de réponse (total) 10487ms Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% MoonshotAI: Kimi K2.5 - Sans raisonnement 0.0% 0.0% 100.0% | 10.00 Score moyen sur l’ensemble des tests de benchmark. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 Z.ai: GLM 4.7 Flash - Sans raisonnement 1.00 1.00 10.00 | 10.00 Le score de cohérence reflète la stabilité entre répétitions (10 = très cohérent, même si constamment faux). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 Anthropic: Claude Opus 4.6 - Raisonnement (medium) 4.41 4.41 10.00 | 100.0% Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les répétitions. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% xAI: Grok 4.1 Fast - Sans raisonnement 0.0% 0.0% 100.0% | 0 Les tests instables ont eu des résultats mixtes entre répétitions (au moins une réussite et un échec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 0 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Pro Preview - Raisonnement (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 0 Google: Gemini 3 Flash Preview - Raisonnement (low) 0 Anthropic: Claude Opus 4.6 - Raisonnement (medium) 2 0 2 | 6.23 Mesure la clarté, l’efficacité et la cohérence du raisonnement indépendamment de la justesse finale. Remarque : pour certains modèles Gemini, seul un texte de raisonnement partiel est disponible, ce qui peut sous-estimer le score de raisonnement. Rang: #14/19 28% Anthropic: Claude Opus 4.6 - Raisonnement (medium) 10.00 OpenAI: gpt-oss-120b - Raisonnement (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 9.89 Z.ai: GLM 5 - Raisonnement (medium) 9.83 StepFun: Step 3.5 Flash - Raisonnement (medium) 9.83 Google: Gemini 3 Flash Preview - Raisonnement (low) 6.23 Qwen: Qwen3 Coder Next - Raisonnement (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Coût total Rang: #16/29 46% StepFun: Step 3.5 Flash - Raisonnement (medium) $0.00000 OpenAI: GPT-4o-mini - Sans raisonnement $0.00018 Z.ai: GLM 4.7 Flash - Sans raisonnement $0.00020 Xiaomi: MiMo-V2-Flash - Sans raisonnement $0.00024 xAI: Grok 4.1 Fast - Sans raisonnement $0.00049 Google: Gemini 3 Flash Preview - Raisonnement (low) $0.00844 Anthropic: Claude Opus 4.6 - Raisonnement (medium) $0.05049 $0.00000 $0.05049 |
| Analyse et extraction des données | Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Aucune réponse échouée. Temps de réponse (moy.) 9460ms Temps de réponse (max) 14717ms Temps de réponse (total) 18919ms Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% Z.ai: GLM 4.7 Flash - Sans raisonnement 0.0% 0.0% 100.0% | 10.00 Score moyen sur l’ensemble des tests de benchmark. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 Z.ai: GLM 4.7 Flash - Sans raisonnement 0.50 0.50 10.00 | 10.00 Le score de cohérence reflète la stabilité entre répétitions (10 = très cohérent, même si constamment faux). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 Z.ai: GLM 5 - Raisonnement (medium) 5.56 5.56 10.00 | 100.0% Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les répétitions. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% Xiaomi: MiMo-V2-Flash - Sans raisonnement 16.7% 0.0% 100.0% | 0 Les tests instables ont eu des résultats mixtes entre répétitions (au moins une réussite et un échec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 0 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Pro Preview - Raisonnement (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 0 Google: Gemini 3 Flash Preview - Raisonnement (low) 0 Z.ai: GLM 5 - Raisonnement (medium) 1 0 1 | 4.73 Mesure la clarté, l’efficacité et la cohérence du raisonnement indépendamment de la justesse finale. Remarque : pour certains modèles Gemini, seul un texte de raisonnement partiel est disponible, ce qui peut sous-estimer le score de raisonnement. Rang: #17/19 11% OpenAI: gpt-oss-120b - Raisonnement (medium) 10.00 Z.ai: GLM 4.7 Flash - Raisonnement (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 9.83 Anthropic: Claude Opus 4.6 - Raisonnement (medium) 9.83 Z.ai: GLM 5 - Raisonnement (medium) 9.80 Google: Gemini 3 Flash Preview - Raisonnement (low) 4.73 OpenAI: GPT-5.3-Codex - Raisonnement (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Coût total Rang: #18/29 39% StepFun: Step 3.5 Flash - Raisonnement (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Raisonnement (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Sans raisonnement $0.00029 Z.ai: GLM 4.7 Flash - Sans raisonnement $0.00050 OpenAI: gpt-oss-120b - Raisonnement (medium) $0.00052 Google: Gemini 3 Flash Preview - Raisonnement (low) $0.01354 Anthropic: Claude Opus 4.6 - Raisonnement (medium) $0.07755 $0.00000 $0.07755 |
| Spécifique au domaine | Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Mauvaise réponse: 2 Temps de réponse (moy.) 8314ms Temps de réponse (max) 14399ms Temps de réponse (total) 24941ms Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 66.7% Google: Gemini 3 Flash Preview - Sans raisonnement 66.7% Anthropic: Claude Sonnet 4.6 - Sans raisonnement 66.7% Z.ai: GLM 4.7 Flash - Sans raisonnement 66.7% Google: Gemini 3 Flash Preview - Raisonnement (low) 33.3% Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 0.0% 0.0% 100.0% | 4.00 Score moyen sur l’ensemble des tests de benchmark. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 7.00 Google: Gemini 3 Flash Preview - Sans raisonnement 7.00 Anthropic: Claude Sonnet 4.6 - Sans raisonnement 7.00 Z.ai: GLM 4.7 Flash - Sans raisonnement 7.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 4.00 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 1.00 1.00 10.00 | 4.41 Le score de cohérence reflète la stabilité entre répétitions (10 = très cohérent, même si constamment faux). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Sans raisonnement 10.00 Anthropic: Claude Sonnet 4.6 - Sans raisonnement 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 4.41 4.41 10.00 | 55.5% Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les répétitions. Rang: #11/29 64% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 66.7% Google: Gemini 3 Flash Preview - Sans raisonnement 66.7% Anthropic: Claude Sonnet 4.6 - Sans raisonnement 66.7% Z.ai: GLM 4.7 Flash - Sans raisonnement 66.7% Google: Gemini 3 Flash Preview - Raisonnement (low) 55.5% Z.ai: GLM 5 - Sans raisonnement 0.0% 0.0% 100.0% | 2 Les tests instables ont eu des résultats mixtes entre répétitions (au moins une réussite et un échec). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Raisonnement (medium) 0 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Flash Preview - Sans raisonnement 0 Anthropic: Claude Sonnet 4.6 - Sans raisonnement 0 Google: Gemini 3 Flash Preview - Raisonnement (low) 2 0 2 | 1.83 Mesure la clarté, l’efficacité et la cohérence du raisonnement indépendamment de la justesse finale. Remarque : pour certains modèles Gemini, seul un texte de raisonnement partiel est disponible, ce qui peut sous-estimer le score de raisonnement. Rang: #18/19 6% Xiaomi: MiMo-V2-Flash - Raisonnement (medium) 8.72 OpenAI: gpt-oss-120b - Raisonnement (medium) 8.53 StepFun: Step 3.5 Flash - Raisonnement (medium) 8.44 Z.ai: GLM 5 - Raisonnement (medium) 8.43 Z.ai: GLM 4.7 Flash - Raisonnement (medium) 8.21 Google: Gemini 3 Flash Preview - Raisonnement (low) 1.83 OpenAI: GPT-5.3-Codex - Raisonnement (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Coût total Rang: #18/29 39% StepFun: Step 3.5 Flash - Raisonnement (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sans raisonnement $0.00005 Xiaomi: MiMo-V2-Flash - Sans raisonnement $0.00008 Qwen: Qwen3 Coder Next - Sans raisonnement $0.00010 Qwen: Qwen3 Coder Next - Raisonnement (medium) $0.00010 Google: Gemini 3 Flash Preview - Raisonnement (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) $0.64205 $0.00000 $0.64205 |
| Suivi des instructions | Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. N'a pas suivi les instructions: 1 Temps de réponse (moy.) 7016ms Temps de réponse (max) 7350ms Temps de réponse (total) 14031ms Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% OpenAI: GPT-5.2 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 50.0% xAI: Grok 4.1 Fast - Sans raisonnement 0.0% 0.0% 100.0% | 7.50 Score moyen sur l’ensemble des tests de benchmark. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 10.00 Z.ai: GLM 5 - Sans raisonnement 10.00 OpenAI: gpt-oss-120b - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 7.50 xAI: Grok 4.1 Fast - Sans raisonnement 1.00 1.00 10.00 | 9.99 Le score de cohérence reflète la stabilité entre répétitions (10 = très cohérent, même si constamment faux). Rang: #17/29 43% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 OpenAI: GPT-5.3-Codex - Raisonnement (medium) 10.00 OpenAI: GPT-5.2 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 9.99 Xiaomi: MiMo-V2-Flash - Raisonnement (medium) 5.80 5.80 10.00 | 50.0% Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les répétitions. Rang: #19/29 36% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% OpenAI: GPT-5.2 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 50.0% xAI: Grok 4.1 Fast - Sans raisonnement 0.0% 0.0% 100.0% | 0 Les tests instables ont eu des résultats mixtes entre répétitions (au moins une réussite et un échec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 0 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Pro Preview - Raisonnement (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 0 Google: Gemini 3 Flash Preview - Raisonnement (low) 0 Google: Gemini 3 Flash Preview - Sans raisonnement 1 0 1 | 5.00 Mesure la clarté, l’efficacité et la cohérence du raisonnement indépendamment de la justesse finale. Remarque : pour certains modèles Gemini, seul un texte de raisonnement partiel est disponible, ce qui peut sous-estimer le score de raisonnement. Rang: #17/19 11% Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 10.00 Z.ai: GLM 5 - Raisonnement (medium) 9.75 StepFun: Step 3.5 Flash - Raisonnement (medium) 9.67 Anthropic: Claude Opus 4.6 - Raisonnement (medium) 9.50 OpenAI: gpt-oss-120b - Raisonnement (medium) 9.50 Google: Gemini 3 Flash Preview - Raisonnement (low) 5.00 OpenAI: GPT-5.3-Codex - Raisonnement (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Coût total Rang: #20/29 32% StepFun: Step 3.5 Flash - Raisonnement (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sans raisonnement $0.00006 Xiaomi: MiMo-V2-Flash - Sans raisonnement $0.00008 Qwen: Qwen3 Coder Next - Sans raisonnement $0.00013 Qwen: Qwen3 Coder Next - Raisonnement (medium) $0.00014 Google: Gemini 3 Flash Preview - Raisonnement (low) $0.00878 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Aucune réponse échouée. Temps de réponse (moy.) 6440ms Temps de réponse (max) 10274ms Temps de réponse (total) 19319ms Un test est entièrement réussi uniquement si toutes ses répétitions réussissent. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% StepFun: Step 3.5 Flash - Raisonnement (medium) 0.0% 0.0% 100.0% | 10.00 Score moyen sur l’ensemble des tests de benchmark. Rang: #4/29 89% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 10.00 Xiaomi: MiMo-V2-Flash - Raisonnement (medium) 1.00 1.00 10.00 | 10.00 Le score de cohérence reflète la stabilité entre répétitions (10 = très cohérent, même si constamment faux). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 10.00 Google: Gemini 3 Pro Preview - Raisonnement (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 10.00 Google: Gemini 3 Flash Preview - Raisonnement (low) 10.00 MiniMax: MiniMax M2.5 - Raisonnement (medium) 4.79 4.79 10.00 | 100.0% Taux de réussite par tentative = tentatives réussies / tentatives totales sur toutes les répétitions. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 100.0% Google: Gemini 3 Pro Preview - Raisonnement (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 100.0% Google: Gemini 3 Flash Preview - Raisonnement (low) 100.0% OpenAI: GPT-4o-mini - Sans raisonnement 0.0% 0.0% 100.0% | 0 Les tests instables ont eu des résultats mixtes entre répétitions (au moins une réussite et un échec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raisonnement (medium) 0 Google: Gemini 3.1 Pro Preview - Raisonnement (medium) 0 Google: Gemini 3 Pro Preview - Raisonnement (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) 0 Google: Gemini 3 Flash Preview - Raisonnement (low) 0 OpenAI: GPT-5 Nano - Raisonnement (medium) 2 0 2 | 7.50 Mesure la clarté, l’efficacité et la cohérence du raisonnement indépendamment de la justesse finale. Remarque : pour certains modèles Gemini, seul un texte de raisonnement partiel est disponible, ce qui peut sous-estimer le score de raisonnement. Rang: #13/19 33% Z.ai: GLM 5 - Raisonnement (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Raisonnement (medium) 9.44 Anthropic: Claude Opus 4.6 - Raisonnement (medium) 9.44 MoonshotAI: Kimi K2.5 - Raisonnement (medium) 9.26 StepFun: Step 3.5 Flash - Raisonnement (medium) 9.22 Google: Gemini 3 Flash Preview - Raisonnement (low) 7.50 Qwen: Qwen3 Coder Next - Raisonnement (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Coût total Rang: #17/29 43% StepFun: Step 3.5 Flash - Raisonnement (medium) $0.00000 Z.ai: GLM 4.7 Flash - Sans raisonnement $0.00008 OpenAI: GPT-4o-mini - Sans raisonnement $0.00028 xAI: Grok 4.1 Fast - Sans raisonnement $0.00053 Qwen: Qwen3 Coder Next - Raisonnement (medium) $0.00058 Google: Gemini 3 Flash Preview - Raisonnement (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Raisonnement (medium) $0.05508 $0.00000 $0.05508 |