Сравнение benchmark Qwen3.5-35B-A3B vs GLM 5: Qwen3.5-35B-A3B лидирует по среднему баллу: 6.3 vs 6.0. GLM 5 имеет более низкую стоимость benchmark: $0.027 vs $0.401. GLM 5 быстрее: 4.03s vs 72.57s, с долей успешных попыток 69.8% vs 44.4%.
Рекомендуемая модель: GLM 5 - Его балл близок к лучшему здесь (6.0 против 6.3), при этом он примерно в 15.3 раза дешевле, чем Qwen3.5-35B-A3B.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-12
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
7.5Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
9.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 5Нет ответа: 2Неверный ответ: 2Ошибка API: 1Время ответа (среднее)72.57sВремя ответа (макс.)409.98sВремя ответа (суммарно)1524.04sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 12Время ответа (среднее)4.03sВремя ответа (макс.)11.07sВремя ответа (суммарно)56.37sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
69.8%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
44.4%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
6Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
5.162Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.263Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.401Общая стоимость (текущая цена)…
$0.027Общая стоимость (текущая цена)…
Цена входа
$0.140 / 1MЦена входа…
$0.600 / 1MЦена входа…
Цена выхода
$1.000 / 1MЦена выхода…
$1.920 / 1MЦена выхода…
Общее число входных токенов
42,196Общее число входных токенов…
37,135Общее число входных токенов…
Выходные токены
40,630Выходные токены…
1,989Выходные токены…
Токены рассуждений
353,577Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
72.57sВремя ответа (среднее)…
4.03sВремя ответа (среднее)…
Время ответа (макс.)
409.98sВремя ответа (макс.)…
11.07sВремя ответа (макс.)…
Время ответа (суммарно)
1524.04sВремя ответа (суммарно)…
56.37sВремя ответа (суммарно)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)21.13sВремя ответа (макс.)34.96sВремя ответа (суммарно)84.53sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
25.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)2.37sВремя ответа (макс.)3.39sВремя ответа (суммарно)4.75sТест считается полностью пройденным, только если все его прогоны успешны.…
9.3Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Тайм-аут: 1Время ответа (среднее)206.65sВремя ответа (макс.)409.98sВремя ответа (суммарно)619.94sТест считается полностью пройденным, только если все его прогоны успешны.…
7.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)5.12sВремя ответа (макс.)8.84sВремя ответа (суммарно)15.36sТест считается полностью пройденным, только если все его прогоны успешны.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)75.34sВремя ответа (макс.)75.34sВремя ответа (суммарно)75.34sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.98sВремя ответа (макс.)4.98sВремя ответа (суммарно)4.98sТест считается полностью пройденным, только если все его прогоны успешны.…
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
83.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Ошибка API: 1Время ответа (среднее)59.33sВремя ответа (макс.)97.12sВремя ответа (суммарно)118.65sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)5.78sВремя ответа (макс.)5.78sВремя ответа (суммарно)5.78sТест считается полностью пройденным, только если все его прогоны успешны.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
44.5%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Неверный ответ: 1Время ответа (среднее)88.34sВремя ответа (макс.)106.00sВремя ответа (суммарно)265.01sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)2.24sВремя ответа (макс.)2.24sВремя ответа (суммарно)2.24sТест считается полностью пройденным, только если все его прогоны успешны.…
1.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)30.30sВремя ответа (макс.)30.30sВремя ответа (суммарно)30.30sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.27sВремя ответа (макс.)3.27sВремя ответа (суммарно)3.27sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)24.45sВремя ответа (макс.)43.36sВремя ответа (суммарно)48.89sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.48sВремя ответа (макс.)1.48sВремя ответа (суммарно)1.48sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
88.9%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 1Время ответа (среднее)33.13sВремя ответа (макс.)64.81sВремя ответа (суммарно)99.38sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.91sВремя ответа (макс.)2.08sВремя ответа (суммарно)3.82sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.65sВремя ответа (макс.)4.65sВремя ответа (суммарно)4.65sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)11.07sВремя ответа (макс.)11.07sВремя ответа (суммарно)11.07sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)177.35sВремя ответа (макс.)177.35sВремя ответа (суммарно)177.35sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)3.62sВремя ответа (макс.)3.62sВремя ответа (суммарно)3.62sТест считается полностью пройденным, только если все его прогоны успешны.…