(no subject)
Sep. 14th, 2018 02:26 pmhttps://docs.google.com/spreadsheets/u/1/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml
Просто восхитительные примеры papeclip maximizing нейросетями. Яркий пример того, как что-то пошло не так при применении бихевиористкой связки "reward-punishment": агент убивает себя в конце первого уровня, чтобы не проиграть на втором; робот-симуляция выпекания блинов по итогу начинает подбрасывать их как можно выше, чтобы добиться максимального времени от поверхности; агенты, разработанные для максимизации их скорости, вырастают чрезвычайно высокими и падают вниз, чтобы добиться высокой скорости; самодвижущаяся повозка типа авто, поощряемая за скорость, начинает крутиться на месте по кругу и т.п.
Просто восхитительные примеры papeclip maximizing нейросетями. Яркий пример того, как что-то пошло не так при применении бихевиористкой связки "reward-punishment": агент убивает себя в конце первого уровня, чтобы не проиграть на втором; робот-симуляция выпекания блинов по итогу начинает подбрасывать их как можно выше, чтобы добиться максимального времени от поверхности; агенты, разработанные для максимизации их скорости, вырастают чрезвычайно высокими и падают вниз, чтобы добиться высокой скорости; самодвижущаяся повозка типа авто, поощряемая за скорость, начинает крутиться на месте по кругу и т.п.