6.2.3.2 Методы в основе AlphaGo

О каких же методах в данном случае шла речь?

В основе AlphaGo лежит переборный алгоритм под названием «метод Монте-Карло для поиска по дереву» (Monte-Carlo Tree Search, MCTS). Существует множество модификаций данного алгоритма, но объединяющим их свойством является то, что MCTS исследует некоторое количество траекторий в игровом дереве, выбирая их при помощи алгоритма генерации псевдослучайных чисел. При этом распределение вероятностей (т. е. закономерность, описывающая область возможных значений случайной величины и вероятности появления этих значений) при выборе хода в конкретном узле дерева определяется при помощи различных математических моделей, которые могут принимать в расчёт как различные признаки позиции, соответствующей данному узлу дерева, так и историю предшествующего исследования данного узла. Идея заключается в том, что MCTS будет выбирать для рассмотрения наиболее вероятные варианты развития игры, поэтому подмножество изученных им траекторий позволит с достаточной точностью аппроксимировать оценку позиции в корне дерева перебора. AlphaGo не была первой программой, основанной на применении MCTS, задолго до неё этот метод использовало множество программ для игры в го, к числу которых относились, например, Gomorra, Fuego, Crazy Stone, Zen, Aya, Pachi, Many Faces of Go и многие другие^[1].

Принципиальная новация заключалась в том, что для предсказания распределения вероятностей в узлах дерева MCTS, а также для оценки терминальных позиций дерева перебора в AlphaGo применялись свёрточные нейронные сети: «сеть политик» (policy network) и «сеть оценки» (value network) соответственно. Неслучайно в числе авторов статьи с описанием AlphaGo в Nature можно найти уже знакомого нам по программе распознавания изображений AlexNet Илью Суцкевера. Для первичного обучения нейронных сетей AlphaGo использовалась база данных онлайн-сервиса KGS Go, содержащая 29,4 млн позиций из 160 000 игр сильных игроков в го (с шестого по девятый дан). Датасет был расширен за счёт отражений и поворотов позиций. Доучивание сетей происходило в режиме обучения с подкреплением за счёт игр, в которых программа играла сама с собой.

↑ Jaap van den Herik H., Iida H., Plaat A. (2014). 8th International Conference, CG 2013, Yokohama, Japan, August 13–15, 2013. Revised Selected Papers. Computers and Games. Lecture Notes in Computer Science 8427 Theoretical Computer Science and General Issues. Springer International Publishing // https://books.google.ru/books?id=52kqBAAAQBAJ

Loading comments...

[1] Jaap van den Herik H., Iida H., Plaat A. (2014). 8th International Conference, CG 2013, Yokohama, Japan, August 13–15, 2013. Revised Selected Papers. Computers and Games. Lecture Notes in Computer Science 8427 Theoretical Computer Science and General Issues. Springer International Publishing // https://books.google.ru/books?id=52kqBAAAQBAJ

[1]