| Анти-ИИ уловки | Тест считается полностью пройденным, только если все его повторы успешны. Нет проваленных ответов. Время ответа (среднее) 3496ms Время ответа (макс.) 4305ms Время ответа (суммарно) 10487ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% MoonshotAI: Kimi K2.5 - Без рассуждения 0.0% 0.0% 100.0% | 10.00 Средний балл по всем бенчмарк-тестам. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Z.ai: GLM 4.7 Flash - Без рассуждения 1.00 1.00 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 4.41 4.41 10.00 | 100.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 2 0 2 | 6.23 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Примечание: для некоторых моделей Gemini доступен только частичный текст рассуждений, поэтому оценка рассуждений может быть занижена. Ранг: #14/19 28% Anthropic: Claude Opus 4.6 - Рассуждение (medium) 10.00 OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.89 Z.ai: GLM 5 - Рассуждение (medium) 9.83 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.83 Google: Gemini 3 Flash Preview - Рассуждение (low) 6.23 Qwen: Qwen3 Coder Next - Рассуждение (medium) 4.00 4.00 10.00 | 3496ms | $0.00844 Общая стоимость Ранг: #16/29 46% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 OpenAI: GPT-4o-mini - Без рассуждения $0.00018 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00020 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00024 xAI: Grok 4.1 Fast - Без рассуждения $0.00049 Google: Gemini 3 Flash Preview - Рассуждение (low) $0.00844 Anthropic: Claude Opus 4.6 - Рассуждение (medium) $0.05049 $0.00000 $0.05049 |
| Парсинг и извлечение данных | Тест считается полностью пройденным, только если все его повторы успешны. Нет проваленных ответов. Время ответа (среднее) 9460ms Время ответа (макс.) 14717ms Время ответа (суммарно) 18919ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% Z.ai: GLM 4.7 Flash - Без рассуждения 0.0% 0.0% 100.0% | 10.00 Средний балл по всем бенчмарк-тестам. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Z.ai: GLM 4.7 Flash - Без рассуждения 0.50 0.50 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Z.ai: GLM 5 - Рассуждение (medium) 5.56 5.56 10.00 | 100.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% Xiaomi: MiMo-V2-Flash - Без рассуждения 16.7% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 Z.ai: GLM 5 - Рассуждение (medium) 1 0 1 | 4.73 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Примечание: для некоторых моделей Gemini доступен только частичный текст рассуждений, поэтому оценка рассуждений может быть занижена. Ранг: #17/19 11% OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 Z.ai: GLM 4.7 Flash - Рассуждение (medium) 9.87 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.83 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.83 Z.ai: GLM 5 - Рассуждение (medium) 9.80 Google: Gemini 3 Flash Preview - Рассуждение (low) 4.73 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.25 1.25 10.00 | 9460ms | $0.01354 Общая стоимость Ранг: #18/29 39% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) $0.00029 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00029 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00050 OpenAI: gpt-oss-120b - Рассуждение (medium) $0.00052 Google: Gemini 3 Flash Preview - Рассуждение (low) $0.01354 Anthropic: Claude Opus 4.6 - Рассуждение (medium) $0.07755 $0.00000 $0.07755 |
| Предметно-ориентированное | Тест считается полностью пройденным, только если все его повторы успешны. Неверный ответ: 2 Время ответа (среднее) 8314ms Время ответа (макс.) 14399ms Время ответа (суммарно) 24941ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #8/29 75% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 66.7% Google: Gemini 3 Flash Preview - Без рассуждения 66.7% Anthropic: Claude Sonnet 4.6 - Без рассуждения 66.7% Z.ai: GLM 4.7 Flash - Без рассуждения 66.7% Google: Gemini 3 Flash Preview - Рассуждение (low) 33.3% Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 0.0% 0.0% 100.0% | 4.00 Средний балл по всем бенчмарк-тестам. Ранг: #8/29 75% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 7.00 Google: Gemini 3 Flash Preview - Без рассуждения 7.00 Anthropic: Claude Sonnet 4.6 - Без рассуждения 7.00 Z.ai: GLM 4.7 Flash - Без рассуждения 7.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 4.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 1.00 1.00 10.00 | 4.41 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #23/29 21% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Без рассуждения 10.00 Anthropic: Claude Sonnet 4.6 - Без рассуждения 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 4.41 4.41 10.00 | 55.5% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #11/29 64% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 66.7% Google: Gemini 3 Flash Preview - Без рассуждения 66.7% Anthropic: Claude Sonnet 4.6 - Без рассуждения 66.7% Z.ai: GLM 4.7 Flash - Без рассуждения 66.7% Google: Gemini 3 Flash Preview - Рассуждение (low) 55.5% Z.ai: GLM 5 - Без рассуждения 0.0% 0.0% 100.0% | 2 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #23/29 21% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Без рассуждения 0 Anthropic: Claude Sonnet 4.6 - Без рассуждения 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 2 0 2 | 1.83 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Примечание: для некоторых моделей Gemini доступен только частичный текст рассуждений, поэтому оценка рассуждений может быть занижена. Ранг: #18/19 6% Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 8.72 OpenAI: gpt-oss-120b - Рассуждение (medium) 8.53 StepFun: Step 3.5 Flash - Рассуждение (medium) 8.44 Z.ai: GLM 5 - Рассуждение (medium) 8.43 Z.ai: GLM 4.7 Flash - Рассуждение (medium) 8.21 Google: Gemini 3 Flash Preview - Рассуждение (low) 1.83 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.00 1.00 8.72 | 8314ms | $0.01993 Общая стоимость Ранг: #18/29 39% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00005 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00008 Qwen: Qwen3 Coder Next - Без рассуждения $0.00010 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00010 Google: Gemini 3 Flash Preview - Рассуждение (low) $0.01993 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) $0.64205 $0.00000 $0.64205 |
| Следование инструкциям | Тест считается полностью пройденным, только если все его повторы успешны. Не соблюдены инструкции: 1 Время ответа (среднее) 7016ms Время ответа (макс.) 7350ms Время ответа (суммарно) 14031ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #14/29 54% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% OpenAI: GPT-5.2 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 50.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 7.50 Средний балл по всем бенчмарк-тестам. Ранг: #15/29 50% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 Z.ai: GLM 5 - Без рассуждения 10.00 OpenAI: gpt-oss-120b - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 7.50 xAI: Grok 4.1 Fast - Без рассуждения 1.00 1.00 10.00 | 9.99 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #17/29 43% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 10.00 OpenAI: GPT-5.2 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 9.99 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 5.80 5.80 10.00 | 50.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #19/29 36% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% OpenAI: GPT-5.2 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 50.0% xAI: Grok 4.1 Fast - Без рассуждения 0.0% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 Google: Gemini 3 Flash Preview - Без рассуждения 1 0 1 | 5.00 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Примечание: для некоторых моделей Gemini доступен только частичный текст рассуждений, поэтому оценка рассуждений может быть занижена. Ранг: #17/19 11% Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 Z.ai: GLM 5 - Рассуждение (medium) 9.75 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.67 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.50 OpenAI: gpt-oss-120b - Рассуждение (medium) 9.50 Google: Gemini 3 Flash Preview - Рассуждение (low) 5.00 OpenAI: GPT-5.3-Codex - Рассуждение (medium) 1.00 1.00 10.00 | 7016ms | $0.00878 Общая стоимость Ранг: #20/29 32% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00006 Xiaomi: MiMo-V2-Flash - Без рассуждения $0.00008 Qwen: Qwen3 Coder Next - Без рассуждения $0.00013 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00014 Google: Gemini 3 Flash Preview - Рассуждение (low) $0.00878 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) $0.03134 $0.00000 $0.03134 |
| Puzzle Solving | Тест считается полностью пройденным, только если все его повторы успешны. Нет проваленных ответов. Время ответа (среднее) 6440ms Время ответа (макс.) 10274ms Время ответа (суммарно) 19319ms Тест считается полностью пройденным, только если все его повторы успешны. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% StepFun: Step 3.5 Flash - Рассуждение (medium) 0.0% 0.0% 100.0% | 10.00 Средний балл по всем бенчмарк-тестам. Ранг: #4/29 89% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 10.00 Xiaomi: MiMo-V2-Flash - Рассуждение (medium) 1.00 1.00 10.00 | 10.00 Оценка стабильности отражает устойчивость между повторами (10 = очень стабильно, даже если стабильно неверно). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 10.00 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 10.00 Google: Gemini 3 Pro Preview - Рассуждение (medium) 10.00 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 10.00 Google: Gemini 3 Flash Preview - Рассуждение (low) 10.00 MiniMax: MiniMax M2.5 - Рассуждение (medium) 4.79 4.79 10.00 | 100.0% Доля успешных попыток = успешные попытки / все попытки по всем повторам. Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 100.0% Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 100.0% Google: Gemini 3 Pro Preview - Рассуждение (medium) 100.0% Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 100.0% Google: Gemini 3 Flash Preview - Рассуждение (low) 100.0% OpenAI: GPT-4o-mini - Без рассуждения 0.0% 0.0% 100.0% | 0 Нестабильные тесты имели смешанные результаты между повторами (как минимум один успех и один провал). Ранг: #5/29 86% Google: Gemini 3 Flash Preview - Рассуждение (medium) 0 Google: Gemini 3.1 Pro Preview - Рассуждение (medium) 0 Google: Gemini 3 Pro Preview - Рассуждение (medium) 0 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) 0 Google: Gemini 3 Flash Preview - Рассуждение (low) 0 OpenAI: GPT-5 Nano - Рассуждение (medium) 2 0 2 | 7.50 Измеряет ясность, эффективность и согласованность рассуждений независимо от корректности итогового ответа. Примечание: для некоторых моделей Gemini доступен только частичный текст рассуждений, поэтому оценка рассуждений может быть занижена. Ранг: #13/19 33% Z.ai: GLM 5 - Рассуждение (medium) 9.50 Anthropic: Claude Sonnet 4.6 - Рассуждение (medium) 9.44 Anthropic: Claude Opus 4.6 - Рассуждение (medium) 9.44 MoonshotAI: Kimi K2.5 - Рассуждение (medium) 9.26 StepFun: Step 3.5 Flash - Рассуждение (medium) 9.22 Google: Gemini 3 Flash Preview - Рассуждение (low) 7.50 Qwen: Qwen3 Coder Next - Рассуждение (medium) 4.33 4.33 9.50 | 6440ms | $0.01105 Общая стоимость Ранг: #17/29 43% StepFun: Step 3.5 Flash - Рассуждение (medium) $0.00000 Z.ai: GLM 4.7 Flash - Без рассуждения $0.00008 OpenAI: GPT-4o-mini - Без рассуждения $0.00028 xAI: Grok 4.1 Fast - Без рассуждения $0.00053 Qwen: Qwen3 Coder Next - Рассуждение (medium) $0.00058 Google: Gemini 3 Flash Preview - Рассуждение (low) $0.01105 Qwen: Qwen3.5 Plus 2026-02-15 - Рассуждение (medium) $0.05508 $0.00000 $0.05508 |