| Trucuri anti-AI | Un test este considerat trecut complet doar dacă toate repetările lui trec. Niciun răspuns eșuat. Timp de răspuns (medie) 4687ms Timp de răspuns (maxim) 6680ms Timp de răspuns (total) 14061ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 100.0% MoonshotAI: Kimi K2.5 - Fără raționament 0.0% 0.0% 100.0% | 10.00 Scor mediu pe toate testele de benchmark. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 Z.ai: GLM 4.7 Flash - Fără raționament 1.00 1.00 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 Anthropic: Claude Opus 4.6 - Raționament (medium) 4.41 4.41 10.00 | 100.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 100.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 OpenAI: GPT-5.3-Codex - Raționament (medium) 0 Anthropic: Claude Opus 4.6 - Raționament (medium) 2 0 2 | 6.00 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Rang: #15/19 22% Anthropic: Claude Opus 4.6 - Raționament (medium) 10.00 OpenAI: gpt-oss-120b - Raționament (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.89 Z.ai: GLM 5 - Raționament (medium) 9.83 StepFun: Step 3.5 Flash - Raționament (medium) 9.83 OpenAI: GPT-5.3-Codex - Raționament (medium) 6.00 Qwen: Qwen3 Coder Next - Raționament (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 Cost total Rang: #24/29 18% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 OpenAI: GPT-4o-mini - Fără raționament $0.00018 Z.ai: GLM 4.7 Flash - Fără raționament $0.00020 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00024 xAI: Grok 4.1 Fast - Fără raționament $0.00049 OpenAI: GPT-5.3-Codex - Raționament (medium) $0.02371 Anthropic: Claude Opus 4.6 - Raționament (medium) $0.05049 $0.00000 $0.05049 |
| Parsare și extragere de date | Un test este considerat trecut complet doar dacă toate repetările lui trec. Niciun răspuns eșuat. Timp de răspuns (medie) 3180ms Timp de răspuns (maxim) 3585ms Timp de răspuns (total) 6360ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 100.0% Z.ai: GLM 4.7 Flash - Fără raționament 0.0% 0.0% 100.0% | 10.00 Scor mediu pe toate testele de benchmark. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 Z.ai: GLM 4.7 Flash - Fără raționament 0.50 0.50 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 Z.ai: GLM 5 - Raționament (medium) 5.56 5.56 10.00 | 100.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 100.0% Xiaomi: MiMo-V2-Flash - Fără raționament 16.7% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 OpenAI: GPT-5.3-Codex - Raționament (medium) 0 Z.ai: GLM 5 - Raționament (medium) 1 0 1 | 1.25 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Rang: #19/19 0% OpenAI: gpt-oss-120b - Raționament (medium) 10.00 Z.ai: GLM 4.7 Flash - Raționament (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.83 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.83 Z.ai: GLM 5 - Raționament (medium) 9.80 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 Cost total Rang: #23/29 21% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Raționament (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00029 Z.ai: GLM 4.7 Flash - Fără raționament $0.00050 OpenAI: gpt-oss-120b - Raționament (medium) $0.00052 OpenAI: GPT-5.3-Codex - Raționament (medium) $0.02600 Anthropic: Claude Opus 4.6 - Raționament (medium) $0.07755 $0.00000 $0.07755 |
| Specific domeniului | Un test este considerat trecut complet doar dacă toate repetările lui trec. Răspuns greșit: 2 Timp de răspuns (medie) 64314ms Timp de răspuns (maxim) 100927ms Timp de răspuns (total) 192942ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 66.7% Google: Gemini 3 Flash Preview - Fără raționament 66.7% Anthropic: Claude Sonnet 4.6 - Fără raționament 66.7% Z.ai: GLM 4.7 Flash - Fără raționament 66.7% OpenAI: GPT-5.3-Codex - Raționament (medium) 33.3% Anthropic: Claude Sonnet 4.6 - Raționament (medium) 0.0% 0.0% 100.0% | 4.00 Scor mediu pe toate testele de benchmark. Rang: #9/29 71% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 7.00 Google: Gemini 3 Flash Preview - Fără raționament 7.00 Anthropic: Claude Sonnet 4.6 - Fără raționament 7.00 Z.ai: GLM 4.7 Flash - Fără raționament 7.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 4.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 1.00 1.00 10.00 | 7.21 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Fără raționament 10.00 Anthropic: Claude Sonnet 4.6 - Fără raționament 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 7.21 Google: Gemini 3 Flash Preview - Raționament (low) 4.41 4.41 10.00 | 55.6% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 66.7% Google: Gemini 3 Flash Preview - Fără raționament 66.7% Anthropic: Claude Sonnet 4.6 - Fără raționament 66.7% Z.ai: GLM 4.7 Flash - Fără raționament 66.7% OpenAI: GPT-5.3-Codex - Raționament (medium) 55.6% Z.ai: GLM 5 - Fără raționament 0.0% 0.0% 100.0% | 1 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #15/29 50% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Fără raționament 0 Anthropic: Claude Sonnet 4.6 - Fără raționament 0 OpenAI: GPT-5.3-Codex - Raționament (medium) 1 Google: Gemini 3 Flash Preview - Raționament (low) 2 0 2 | 1.00 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Rang: #19/19 0% Xiaomi: MiMo-V2-Flash - Raționament (medium) 8.72 OpenAI: gpt-oss-120b - Raționament (medium) 8.53 StepFun: Step 3.5 Flash - Raționament (medium) 8.44 Z.ai: GLM 5 - Raționament (medium) 8.43 Z.ai: GLM 4.7 Flash - Raționament (medium) 8.21 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 Cost total Rang: #27/29 7% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00005 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00008 Qwen: Qwen3 Coder Next - Fără raționament $0.00010 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00010 OpenAI: GPT-5.3-Codex - Raționament (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - Raționament (medium) $0.64205 $0.00000 $0.64205 |
| Respectarea instrucțiunilor | Un test este considerat trecut complet doar dacă toate repetările lui trec. Nu a urmat instrucțiunile: 1 Timp de răspuns (medie) 3037ms Timp de răspuns (maxim) 3436ms Timp de răspuns (total) 6074ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #15/29 50% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% OpenAI: GPT-5.2 - Raționament (medium) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 50.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 9.00 Scor mediu pe toate testele de benchmark. Rang: #14/29 54% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 Z.ai: GLM 5 - Fără raționament 10.00 OpenAI: gpt-oss-120b - Raționament (medium) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 9.00 xAI: Grok 4.1 Fast - Fără raționament 1.00 1.00 10.00 | 10.00 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #4/29 89% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 10.00 OpenAI: GPT-5.2 - Raționament (medium) 10.00 Xiaomi: MiMo-V2-Flash - Raționament (medium) 5.80 5.80 10.00 | 50.0% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #20/29 32% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% OpenAI: GPT-5.2 - Raționament (medium) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 50.0% xAI: Grok 4.1 Fast - Fără raționament 0.0% 0.0% 100.0% | 0 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #6/29 82% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 OpenAI: GPT-5.3-Codex - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Fără raționament 1 0 1 | 1.00 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Rang: #19/19 0% Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 Z.ai: GLM 5 - Raționament (medium) 9.75 StepFun: Step 3.5 Flash - Raționament (medium) 9.67 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.50 OpenAI: gpt-oss-120b - Raționament (medium) 9.50 OpenAI: GPT-5.3-Codex - Raționament (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 Cost total Rang: #23/29 21% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00006 Xiaomi: MiMo-V2-Flash - Fără raționament $0.00008 Qwen: Qwen3 Coder Next - Fără raționament $0.00013 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00014 OpenAI: GPT-5.3-Codex - Raționament (medium) $0.01216 Google: Gemini 3.1 Pro Preview - Raționament (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Un test este considerat trecut complet doar dacă toate repetările lui trec. Nu a urmat instrucțiunile: 1 Timp de răspuns (medie) 4610ms Timp de răspuns (maxim) 7191ms Timp de răspuns (total) 13830ms Un test este considerat trecut complet doar dacă toate repetările lui trec. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 66.7% StepFun: Step 3.5 Flash - Raționament (medium) 0.0% 0.0% 100.0% | 7.00 Scor mediu pe toate testele de benchmark. Rang: #9/29 71% Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 7.00 Xiaomi: MiMo-V2-Flash - Raționament (medium) 1.00 1.00 10.00 | 7.38 Scorul de consistență reflectă stabilitatea între repetări (10 = foarte consistent, chiar dacă este constant greșit). Rang: #20/29 32% Google: Gemini 3 Flash Preview - Raționament (medium) 10.00 Google: Gemini 3.1 Pro Preview - Raționament (medium) 10.00 Google: Gemini 3 Pro Preview - Raționament (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 10.00 Google: Gemini 3 Flash Preview - Raționament (low) 10.00 OpenAI: GPT-5.3-Codex - Raționament (medium) 7.38 MiniMax: MiniMax M2.5 - Raționament (medium) 4.79 4.79 10.00 | 77.8% Rata de trecere pe încercare = încercări trecute / total încercări pe toate repetările. Rang: #8/29 75% Google: Gemini 3 Flash Preview - Raționament (medium) 100.0% Google: Gemini 3.1 Pro Preview - Raționament (medium) 100.0% Google: Gemini 3 Pro Preview - Raționament (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 100.0% Google: Gemini 3 Flash Preview - Raționament (low) 100.0% OpenAI: GPT-5.3-Codex - Raționament (medium) 77.8% OpenAI: GPT-4o-mini - Fără raționament 0.0% 0.0% 100.0% | 1 Testele instabile au avut rezultate mixte între repetări (cel puțin un succes și un eșec). Rang: #18/29 39% Google: Gemini 3 Flash Preview - Raționament (medium) 0 Google: Gemini 3.1 Pro Preview - Raționament (medium) 0 Google: Gemini 3 Pro Preview - Raționament (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) 0 Google: Gemini 3 Flash Preview - Raționament (low) 0 OpenAI: GPT-5.3-Codex - Raționament (medium) 1 OpenAI: GPT-5 Nano - Raționament (medium) 2 0 2 | 6.00 Măsoară claritatea, eficiența și consistența raționamentului independent de corectitudinea răspunsului final. Rang: #18/19 6% Z.ai: GLM 5 - Raționament (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Raționament (medium) 9.44 Anthropic: Claude Opus 4.6 - Raționament (medium) 9.44 MoonshotAI: Kimi K2.5 - Raționament (medium) 9.26 StepFun: Step 3.5 Flash - Raționament (medium) 9.22 OpenAI: GPT-5.3-Codex - Raționament (medium) 6.00 Qwen: Qwen3 Coder Next - Raționament (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 Cost total Rang: #25/29 14% StepFun: Step 3.5 Flash - Raționament (medium) $0.00000 Z.ai: GLM 4.7 Flash - Fără raționament $0.00008 OpenAI: GPT-4o-mini - Fără raționament $0.00028 xAI: Grok 4.1 Fast - Fără raționament $0.00053 Qwen: Qwen3 Coder Next - Raționament (medium) $0.00058 OpenAI: GPT-5.3-Codex - Raționament (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - Raționament (medium) $0.05508 $0.00000 $0.05508 |