Сравнение benchmark Gemini 2.5 Flash vs GLM 5V Turbo: Gemini 2.5 Flash лидирует по среднему баллу: 6.2 vs 5.9. Gemini 2.5 Flash имеет более низкую стоимость benchmark: $0.016 vs $0.052. Gemini 2.5 Flash быстрее: 875ms vs 2.99s, с долей успешных попыток 46.0% vs 38.1%.
Рекомендуемая модель: Gemini 2.5 Flash - Здесь у него лучший балл (6.2), при этом он примерно в 3.4 раза дешевле, чем GLM 5V Turbo.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-18
GLM 5V TurboGLM 5V TurbononeАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.Релиз: 2026-04-01
Оценка
6.2Средний балл по всем бенчмарк-тестам.…
5.9Средний балл по всем бенчмарк-тестам.…
Ранг
#93
#105
Надежность
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
9.6Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
Тестов верно
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 12Время ответа (среднее)875msВремя ответа (макс.)4.39sВремя ответа (суммарно)18.37sТест считается полностью пройденным, только если все его прогоны успешны.…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 11Не соблюдены инструкции: 2Время ответа (среднее)2.99sВремя ответа (макс.)6.51sВремя ответа (суммарно)62.74sТест считается полностью пройденным, только если все его прогоны успешны.…
Доля успешных попыток
46.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
38.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
Нестабильные тесты
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Всего запусков
63Всего запусков…
63Всего запусков…
Стоимость за результат
0.169Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
0.645Показывает среднюю стоимость одного правильного ответа в бенчмарке в центах (меньше — лучше).…
Общая стоимость
$0.016Общая стоимость (текущая цена)…
$0.052Общая стоимость (текущая цена)…
Цена входа
$0.300 / 1MЦена входа…
$1.200 / 1MЦена входа…
Цена выхода
$2.500 / 1MЦена выхода…
$4.000 / 1MЦена выхода…
Общее число входных токенов
35,926Общее число входных токенов…
37,100Общее число входных токенов…
Выходные токены
1,770Выходные токены…
1,766Выходные токены…
Токены рассуждений
0Токены рассуждений…
0Токены рассуждений…
Время ответа (среднее)
875msВремя ответа (среднее)…
2.99sВремя ответа (среднее)…
Время ответа (макс.)
4.39sВремя ответа (макс.)…
6.51sВремя ответа (макс.)…
Время ответа (суммарно)
18.37sВремя ответа (суммарно)…
62.74sВремя ответа (суммарно)…
Генерация showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Время ответа (среднее)582msВремя ответа (макс.)844msВремя ответа (суммарно)2.33sТест считается полностью пройденным, только если все его прогоны успешны.…
582msВремя ответа (среднее)…
492Общее число входных токенов…
102Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.8Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
25.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 3Время ответа (среднее)3.13sВремя ответа (макс.)5.90sВремя ответа (суммарно)12.50sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)736msВремя ответа (макс.)1.16sВремя ответа (суммарно)2.21sТест считается полностью пройденным, только если все его прогоны успешны.…
736msВремя ответа (среднее)…
8,122Общее число входных токенов…
483Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)3.13sВремя ответа (макс.)5.30sВремя ответа (суммарно)9.40sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)4.39sВремя ответа (макс.)4.39sВремя ответа (суммарно)4.39sТест считается полностью пройденным, только если все его прогоны успешны.…
4.39sВремя ответа (среднее)…
12,519Общее число входных токенов…
366Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)6.51sВремя ответа (макс.)6.51sВремя ответа (суммарно)6.51sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)652msВремя ответа (макс.)660msВремя ответа (суммарно)1.30sТест считается полностью пройденным, только если все его прогоны успешны.…
652msВремя ответа (среднее)…
7,257Общее число входных токенов…
279Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)3.81sВремя ответа (макс.)5.69sВремя ответа (суммарно)7.62sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
55.6%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)495msВремя ответа (макс.)642msВремя ответа (суммарно)1.49sТест считается полностью пройденным, только если все его прогоны успешны.…
495msВремя ответа (среднее)…
633Общее число входных токенов…
12Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)2.09sВремя ответа (макс.)2.39sВремя ответа (суммарно)6.26sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)615msВремя ответа (макс.)615msВремя ответа (суммарно)615msТест считается полностью пройденным, только если все его прогоны успешны.…
615msВремя ответа (среднее)…
486Общее число входных токенов…
78Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
4.6Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Время ответа (среднее)2.22sВремя ответа (макс.)2.22sВремя ответа (суммарно)2.22sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)590msВремя ответа (макс.)622msВремя ответа (суммарно)1.18sТест считается полностью пройденным, только если все его прогоны успешны.…
590msВремя ответа (среднее)…
615Общее число входных токенов…
72Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
6.5Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.97sВремя ответа (макс.)2.43sВремя ответа (суммарно)3.93sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)604msВремя ответа (макс.)700msВремя ответа (суммарно)1.81sТест считается полностью пройденным, только если все его прогоны успешны.…
604msВремя ответа (среднее)…
558Общее число входных токенов…
132Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
5.3Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Не соблюдены инструкции: 1Неверный ответ: 1Время ответа (среднее)2.40sВремя ответа (макс.)3.81sВремя ответа (суммарно)7.21sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)1.91sВремя ответа (макс.)1.91sВремя ответа (суммарно)1.91sТест считается полностью пройденным, только если все его прогоны успешны.…
1.91sВремя ответа (среднее)…
5,088Общее число входных токенов…
234Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
10.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)4.86sВремя ответа (макс.)4.86sВремя ответа (суммарно)4.86sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.15sВремя ответа (макс.)1.15sВремя ответа (суммарно)1.15sТест считается полностью пройденным, только если все его прогоны успешны.…
1.15sВремя ответа (среднее)…
156Общее число входных токенов…
12Выходные токены…
0Токены рассуждений…
GLM 5V TurboАрхивная модель: эта модель больше не обновляется и не тестируется на новых тестах.
3.0Средний балл по всем бенчмарк-тестам.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.23sВремя ответа (макс.)2.23sВремя ответа (суммарно)2.23sТест считается полностью пройденным, только если все его прогоны успешны.…