| Анти-ИИ уловки | Тест считается полностью пройденным, только если все его повторы успешны. Нет проваленных ответов. Время ответа (среднее) 4687ms Время ответа (макс.) 6680ms Время ответа (суммарно) 14061ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 100.0% MoonshotAI: Kimi K2.5 - Без рассуждения 0.0% 0.0% 100.0% | 10.00 Средний балл по всем бенчмарк-тестам. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 Z.ai: GLM 4.7 Flash - Без рассуждения 1.00 1.00 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 4.41 4.41 10.00 | 100.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 100.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 0 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 2 0 2 | 6.00 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Ранг: #15/19 22% Anthropic: Claude Opus 4.6 - Рассуждение (medium) 10.00 OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.89 Z.ai: GLM 5 - Рассуждение (medium) 9.83 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.83 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 6.00 Qwen: Qwen3 Coder Next - Рассуждение (medium) 4.00 4.00 10.00 | 4687ms | $0.02371 Общая стоимость Ранг: #24/29 18% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 OpenAI: GPT-4o-mini - Без рассуждения $0.00018 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00020 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00024 xAI: Grok 4.1 Fast - Без рассуждения $0.00049 OpenAI: GPT-5.3-Codex - Рассуждение (medium) $0.02371 Anthropic: Claude Opus 4.6 - Рассуждение (medium) $0.05049 $0.00000 $0.05049 |
| Парсинг и извлечение данных | Тест считается полностью пройденным, только если все его повторы успешны. Нет проваленных ответов. Время ответа (среднее) 3180ms Время ответа (макс.) 3585ms Время ответа (суммарно) 6360ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 100.0% Z.ai: GLM 4.7 Flash - Без рассуждения 0.0% 0.0% 100.0% | 10.00 Средний балл по всем бенчмарк-тестам. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 Z.ai: GLM 4.7 Flash - Без рассуждения 0.50 0.50 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 Z.ai: GLM 5 - Рассуждение (medium) 5.56 5.56 10.00 | 100.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 100.0% Xiaomi: MiMo-V2-Flash - Без рассуждения 16.7% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 0 Z.ai: GLM 5 - Рассуждение (medium) 1 0 1 | 1.25 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Ранг: #19/19 0% OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 Z.ai: GLM 4.7 Flash - Рассуждение (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.83 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.83 Z.ai: GLM 5 - Рассуждение (medium) 9.80 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.25 1.25 10.00 | 3180ms | $0.02600 Общая стоимость Ранг: #23/29 21% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00029 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00050 OpenAI: gpt-oss-120b - Рассуждение (medium) $0.00052 OpenAI: GPT-5.3-Codex - Рассуждение (medium) $0.02600 Anthropic: Claude Opus 4.6 - Рассуждение (medium) $0.07755 $0.00000 $0.07755 |
| Предметно-ориентированное | Тест считается полностью пройденным, только если все его повторы успешны. Неверный ответ: 2 Время ответа (среднее) 64314ms Время ответа (макс.) 100927ms Время ответа (суммарно) 192942ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #9/29 71% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 66.7% Google: Gemini 3 Flash Preview - Без рассуждения 66.7% Anthropic: Claude Sonnet 4.6 - Без рассуждения 66.7% Z.ai: GLM 4.7 Flash - Без рассуждения 66.7% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 33.3% Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 0.0% 0.0% 100.0% | 4.00 Средний балл по всем бенчмарк-тестам. Ранг: #9/29 71% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 7.00 Google: Gemini 3 Flash Preview - Без рассуждения 7.00 Anthropic: Claude Sonnet 4.6 - Без рассуждения 7.00 Z.ai: GLM 4.7 Flash - Без рассуждения 7.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 4.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 1.00 1.00 10.00 | 7.21 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #15/29 50% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Без рассуждения 10.00 Anthropic: Claude Sonnet 4.6 - Без рассуждения 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 7.21 Google: Gemini 3 Flash Preview - Рассуждение (low) 4.41 4.41 10.00 | 55.6% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 66.7% Google: Gemini 3 Flash Preview - Без рассуждения 66.7% Anthropic: Claude Sonnet 4.6 - Без рассуждения 66.7% Z.ai: GLM 4.7 Flash - Без рассуждения 66.7% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 55.6% Z.ai: GLM 5 - Без рассуждения 0.0% 0.0% 100.0% | 1 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #15/29 50% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Без рассуждения 0 Anthropic: Claude Sonnet 4.6 - Без рассуждения 0 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1 Google: Gemini 3 Flash Preview - Рассуждение (low) 2 0 2 | 1.00 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Ранг: #19/19 0% Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 8.72 OpenAI: gpt-oss-120b - Рассуждение (medium) 8.53 StepFun: Step 3.5 Flash - Рассуждение (medium) 8.44 Z.ai: GLM 5 - Рассуждение (medium) 8.43 Z.ai: GLM 4.7 Flash - Рассуждение (medium) 8.21 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.00 1.00 8.72 | 64314ms | $0.35664 Общая стоимость Ранг: #27/29 7% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00005 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00008 Qwen: Qwen3 Coder Next - Без рассуждения $0.00010 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00010 OpenAI: GPT-5.3-Codex - Рассуждение (medium) $0.35664 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) $0.64205 $0.00000 $0.64205 |
| Следование инструкциям | Тест считается полностью пройденным, только если все его повторы успешны. Не соблюдены инструкции: 1 Время ответа (среднее) 3037ms Время ответа (макс.) 3436ms Время ответа (суммарно) 6074ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #15/29 50% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% OpenAI: GPT-5.2 - Рассуждение (medium) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 50.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 9.00 Средний балл по всем бенчмарк-тестам. Ранг: #14/29 54% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 Z.ai: GLM 5 - Без рассуждения 10.00 OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 9.00 xAI: Grok 4.1 Fast - Без рассуждения 1.00 1.00 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #4/29 89% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 OpenAI: GPT-5.2 - Рассуждение (medium) 10.00 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 5.80 5.80 10.00 | 50.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #20/29 32% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% OpenAI: GPT-5.2 - Рассуждение (medium) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 50.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #6/29 82% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Без рассуждения 1 0 1 | 1.00 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Ранг: #19/19 0% Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 Z.ai: GLM 5 - Рассуждение (medium) 9.75 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.67 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.50 OpenAI: gpt-oss-120b - Рассуждение (medium) 9.50 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.00 1.00 10.00 | 3037ms | $0.01216 Общая стоимость Ранг: #23/29 21% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00006 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00008 Qwen: Qwen3 Coder Next - Без рассуждения $0.00013 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00014 OpenAI: GPT-5.3-Codex - Рассуждение (medium) $0.01216 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Тест считается полностью пройденным, только если все его повторы успешны. Не соблюдены инструкции: 1 Время ответа (среднее) 4610ms Время ответа (макс.) 7191ms Время ответа (суммарно) 13830ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #8/29 75% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 66.7% StepFun: Step 3.5 Flash - Рассуждение (medium) 0.0% 0.0% 100.0% | 7.00 Средний балл по всем бенчмарк-тестам. Ранг: #9/29 71% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 7.00 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 1.00 1.00 10.00 | 7.38 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #20/29 32% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 7.38 MiniMax: MiniMax M2.5 - Рассуждение (medium) 4.79 4.79 10.00 | 77.8% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #8/29 75% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-5.3-Codex - Рассуждение (medium) 77.8% OpenAI: GPT-4o-mini - Без рассуждения 0.0% 0.0% 100.0% | 1 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #18/29 39% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1 OpenAI: GPT-5 Nano - Рассуждение (medium) 2 0 2 | 6.00 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Ранг: #18/19 6% Z.ai: GLM 5 - Рассуждение (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.44 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.44 MoonshotAI: Kimi K2.5 - Рассуждение (medium) 9.26 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.22 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 6.00 Qwen: Qwen3 Coder Next - Рассуждение (medium) 4.33 4.33 9.50 | 4610ms | $0.02559 Общая стоимость Ранг: #25/29 14% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00008 OpenAI: GPT-4o-mini - Без рассуждения $0.00028 xAI: Grok 4.1 Fast - Без рассуждения $0.00053 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00058 OpenAI: GPT-5.3-Codex - Рассуждение (medium) $0.02559 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) $0.05508 $0.00000 $0.05508 |