Сравнение benchmark Qwen3.6 Flash vs GLM 4.7 Flash: Qwen3.6 Flash лидирует по среднему баллу: 5.4 vs 4.4. Qwen3.6 Flash имеет более низкую стоимость benchmark: $0.015 vs $0.054. Qwen3.6 Flash быстрее: 1.60s vs 35.10s, с долей успешных попыток 33.3% vs 33.3%.
Рекомендуемая модель: Qwen3.6 Flash - Здесь у него лучший балл (5.4), при этом он примерно в 3.8 раза дешевле, чем GLM 4.7 Flash.
Бенчмарки сгенерированы из тестовых наборов AI BENCHY в: 2026-06-10
10.0Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
6.7Оценка успеха с первой попытки: 10.0 означает отсутствие повторяемых сбоев целевого API или лимитов до успешных вызовов; зафиксированные сбои снижают оценку.…
Стабильность
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
6.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 4Время ответа (среднее)1.63sВремя ответа (макс.)4.60sВремя ответа (суммарно)6.51sТест считается полностью пройденным, только если все его прогоны успешны.…
5.9Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
41.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)14.95sВремя ответа (макс.)27.09sВремя ответа (суммарно)29.90sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.79sВремя ответа (макс.)2.46sВремя ответа (суммарно)5.36sТест считается полностью пройденным, только если все его прогоны успешны.…
7.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Тайм-аут: 2Нет ответа: 1Время ответа (среднее)55.33sВремя ответа (макс.)89.40sВремя ответа (суммарно)110.66sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Недопустимый вызов инструмента: 1Время ответа (среднее)4.22sВремя ответа (макс.)4.22sВремя ответа (суммарно)4.22sТест считается полностью пройденным, только если все его прогоны успешны.…
2.1Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Недопустимый вызов инструмента: 1Время ответа (среднее)65.57sВремя ответа (макс.)65.57sВремя ответа (суммарно)65.57sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.13sВремя ответа (макс.)3.35sВремя ответа (суммарно)4.26sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет ответа: 1Время ответа (среднее)1.51sВремя ответа (макс.)1.51sВремя ответа (суммарно)1.51sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Время ответа (среднее)1.11sВремя ответа (макс.)1.89sВремя ответа (суммарно)3.32sТест считается полностью пройденным, только если все его прогоны успешны.…
4.4Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
33.3%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
2Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Нет ответа: 1Время ответа (среднее)174.55sВремя ответа (макс.)174.55sВремя ответа (суммарно)174.55sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)947msВремя ответа (макс.)947msВремя ответа (суммарно)947msТест считается полностью пройденным, только если все его прогоны успешны.…
9.7Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)18.14sВремя ответа (макс.)18.14sВремя ответа (суммарно)18.14sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
50.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)1.10sВремя ответа (макс.)1.36sВремя ответа (суммарно)2.19sТест считается полностью пройденным, только если все его прогоны успешны.…
5.8Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
66.7%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)2.97sВремя ответа (макс.)2.97sВремя ответа (суммарно)2.97sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)1.21sВремя ответа (макс.)1.80sВремя ответа (суммарно)3.64sТест считается полностью пройденным, только если все его прогоны успешны.…
7.2Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
11.1%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
1Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 2Не соблюдены инструкции: 1Время ответа (среднее)12.93sВремя ответа (макс.)22.33sВремя ответа (суммарно)25.85sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)2.49sВремя ответа (макс.)2.49sВремя ответа (суммарно)2.49sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
100.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Нет проваленных ответов.Время ответа (среднее)15.95sВремя ответа (макс.)15.95sВремя ответа (суммарно)15.95sТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)649msВремя ответа (макс.)649msВремя ответа (суммарно)649msТест считается полностью пройденным, только если все его прогоны успешны.…
10.0Оценка стабильности отражает устойчивость между прогонами (10 = очень стабильно, даже если стабильно неверно).…
0.0%Доля успешных попыток = успешные попытки / все попытки по всем прогонам.…
0Нестабильные тесты имели смешанные результаты между прогонами (как минимум один успех и один провал).…
Тест считается полностью пройденным, только если все его прогоны успешны.Неверный ответ: 1Время ответа (среднее)11.13sВремя ответа (макс.)11.13sВремя ответа (суммарно)11.13sТест считается полностью пройденным, только если все его прогоны успешны.…