| Trucuri anti-AI | Un test este considerat trecut complet doar dacă toate repetările lui trec. Niciun răspuns eșuat. Timp de răspuns (medie) 3496ms Timp de răspuns (maxim) 4305ms Timp de răspuns (total) 10487ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% MoonshotAI: Kimi K2.5 - Fără raționament 0.0% 0.0% 100.0% | 10.00 Scor mediu pe toate testele de benchmark. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Z.ai: GLM 4.7 Flash - Fără raționament 1.00 1.00 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Anthropic: Claude Opus 4.6 - Raționament (medium) 4.41 4.41 10.00 | 100.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 Anthropic: Claude Opus 4.6 - Raționament (medium) 2 0 2 | 6.23 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Notă: pentru unele modele Gemini este disponibil doar text de raționament parțial, astfel scorul de raționament poate fi subestimat. Rang: #14/19 28% Anthropic: Claude Opus 4.6 - Raționament (medium) 10.00 OpenAI: gpt-oss-120b - Raționament (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.89 Z.ai: GLM 5 - Raționament (medium) 9.83 StepFun: Step 3.5 Flash - Raționament (medium) 9.83 Google: Gemini 3 Flash Preview - Raționament (low) 6.23 Qwen: Qwen3 Coder Next - Raționament (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Cost total Rang: #16/29 46% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 OpenAI: GPT-4o-mini - Fără raționament $0.00018 Z.ai: GLM 4.7 Flash - Fără raționament $0.00020 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00024 xAI: Grok 4.1 Fast - Fără raționament $0.00049 Google: Gemini 3 Flash Preview - Raționament (low) $0.00844 Anthropic: Claude Opus 4.6 - Raționament (medium) $0.05049 $0.00000 $0.05049 |
| Parsare și extragere de date | Un test este considerat trecut complet doar dacă toate repetările lui trec. Niciun răspuns eșuat. Timp de răspuns (medie) 9460ms Timp de răspuns (maxim) 14717ms Timp de răspuns (total) 18919ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% Z.ai: GLM 4.7 Flash - Fără raționament 0.0% 0.0% 100.0% | 10.00 Scor mediu pe toate testele de benchmark. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Z.ai: GLM 4.7 Flash - Fără raționament 0.50 0.50 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Z.ai: GLM 5 - Raționament (medium) 5.56 5.56 10.00 | 100.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% Xiaomi: MiMo-V2-Flash - Fără raționament 16.7% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 Z.ai: GLM 5 - Raționament (medium) 1 0 1 | 4.73 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Notă: pentru unele modele Gemini este disponibil doar text de raționament parțial, astfel scorul de raționament poate fi subestimat. Rang: #17/19 11% OpenAI: gpt-oss-120b - Raționament (medium) 10.00 Z.ai: GLM 4.7 Flash - Raționament (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.83 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.83 Z.ai: GLM 5 - Raționament (medium) 9.80 Google: Gemini 3 Flash Preview - Raționament (low) 4.73 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Cost total Rang: #18/29 39% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Raționament (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00029 Z.ai: GLM 4.7 Flash - Fără raționament $0.00050 OpenAI: gpt-oss-120b - Raționament (medium) $0.00052 Google: Gemini 3 Flash Preview - Raționament (low) $0.01354 Anthropic: Claude Opus 4.6 - Raționament (medium) $0.07755 $0.00000 $0.07755 |
| Specific domeniului | Un test este considerat trecut complet doar dacă toate repetările lui trec. Răspuns greșit: 2 Timp de răspuns (medie) 8314ms Timp de răspuns (maxim) 14399ms Timp de răspuns (total) 24941ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 66.7% Google: Gemini 3 Flash Preview - Fără raționament 66.7% Anthropic: Claude Sonnet 4.6 - Fără raționament 66.7% Z.ai: GLM 4.7 Flash - Fără raționament 66.7% Google: Gemini 3 Flash Preview - Raționament (low) 33.3% Anthropic: Claude Sonnet 4.6 - Raționament (medium) 0.0% 0.0% 100.0% | 4.00 Scor mediu pe toate testele de benchmark. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 7.00 Google: Gemini 3 Flash Preview - Fără raționament 7.00 Anthropic: Claude Sonnet 4.6 - Fără raționament 7.00 Z.ai: GLM 4.7 Flash - Fără raționament 7.00 Google: Gemini 3 Flash Preview - Raționament (low) 4.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 1.00 1.00 10.00 | 4.41 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Fără raționament 10.00 Anthropic: Claude Sonnet 4.6 - Fără raționament 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 4.41 4.41 10.00 | 55.5% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #11/29 64% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 66.7% Google: Gemini 3 Flash Preview - Fără raționament 66.7% Anthropic: Claude Sonnet 4.6 - Fără raționament 66.7% Z.ai: GLM 4.7 Flash - Fără raționament 66.7% Google: Gemini 3 Flash Preview - Raționament (low) 55.5% Z.ai: GLM 5 - Fără raționament 0.0% 0.0% 100.0% | 2 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #23/29 21% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Fără raționament 0 Anthropic: Claude Sonnet 4.6 - Fără raționament 0 Google: Gemini 3 Flash Preview - Raționament (low) 2 0 2 | 1.83 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Notă: pentru unele modele Gemini este disponibil doar text de raționament parțial, astfel scorul de raționament poate fi subestimat. Rang: #18/19 6% Xiaomi: MiMo-V2-Flash - Raționament (medium) 8.72 OpenAI: gpt-oss-120b - Raționament (medium) 8.53 StepFun: Step 3.5 Flash - Raționament (medium) 8.44 Z.ai: GLM 5 - Raționament (medium) 8.43 Z.ai: GLM 4.7 Flash - Raționament (medium) 8.21 Google: Gemini 3 Flash Preview - Raționament (low) 1.83 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Cost total Rang: #18/29 39% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00005 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00008 Qwen: Qwen3 Coder Next - Fără raționament $0.00010 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00010 Google: Gemini 3 Flash Preview - Raționament (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Raționament (medium) $0.64205 $0.00000 $0.64205 |
| Respectarea instrucțiunilor | Un test este considerat trecut complet doar dacă toate repetările lui trec. Nu a urmat instrucțiunile: 1 Timp de răspuns (medie) 7016ms Timp de răspuns (maxim) 7350ms Timp de răspuns (total) 14031ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% OpenAI: GPT-5.2 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 50.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 7.50 Scor mediu pe toate testele de benchmark. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 Z.ai: GLM 5 - Fără raționament 10.00 OpenAI: gpt-oss-120b - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 7.50 xAI: Grok 4.1 Fast - Fără raționament 1.00 1.00 10.00 | 9.99 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #17/29 43% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 OpenAI: GPT-5.2 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 9.99 Xiaomi: MiMo-V2-Flash - Raționament (medium) 5.80 5.80 10.00 | 50.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #19/29 36% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% OpenAI: GPT-5.2 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 50.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 Google: Gemini 3 Flash Preview - Fără raționament 1 0 1 | 5.00 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Notă: pentru unele modele Gemini este disponibil doar text de raționament parțial, astfel scorul de raționament poate fi subestimat. Rang: #17/19 11% Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 Z.ai: GLM 5 - Raționament (medium) 9.75 StepFun: Step 3.5 Flash - Raționament (medium) 9.67 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.50 OpenAI: gpt-oss-120b - Raționament (medium) 9.50 Google: Gemini 3 Flash Preview - Raționament (low) 5.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Cost total Rang: #20/29 32% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00006 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00008 Qwen: Qwen3 Coder Next - Fără raționament $0.00013 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00014 Google: Gemini 3 Flash Preview - Raționament (low) $0.00878 Google: Gemini 3.1 Pro Preview - Raționament (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Un test este considerat trecut complet doar dacă toate repetările lui trec. Niciun răspuns eșuat. Timp de răspuns (medie) 6440ms Timp de răspuns (maxim) 10274ms Timp de răspuns (total) 19319ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% StepFun: Step 3.5 Flash - Raționament (medium) 0.0% 0.0% 100.0% | 10.00 Scor mediu pe toate testele de benchmark. Rang: #4/29 89% Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 Xiaomi: MiMo-V2-Flash - Raționament (medium) 1.00 1.00 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 MiniMax: MiniMax M2.5 - Raționament (medium) 4.79 4.79 10.00 | 100.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-4o-mini - Fără raționament 0.0% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #5/29 86% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 OpenAI: GPT-5 Nano - Raționament (medium) 2 0 2 | 7.50 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Notă: pentru unele modele Gemini este disponibil doar text de raționament parțial, astfel scorul de raționament poate fi subestimat. Rang: #13/19 33% Z.ai: GLM 5 - Raționament (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.44 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.44 MoonshotAI: Kimi K2.5 - Raționament (medium) 9.26 StepFun: Step 3.5 Flash - Raționament (medium) 9.22 Google: Gemini 3 Flash Preview - Raționament (low) 7.50 Qwen: Qwen3 Coder Next - Raționament (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Cost total Rang: #17/29 43% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00008 OpenAI: GPT-4o-mini - Fără raționament $0.00028 xAI: Grok 4.1 Fast - Fără raționament $0.00053 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00058 Google: Gemini 3 Flash Preview - Raționament (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) $0.05508 $0.00000 $0.05508 |