6.2.3.3 Дальнейшее развитие AlphaGo - отказ от человеческих знаний
Хотя «момент Deep Blue» для го определённо состоялся, это не означало окончания работы DeepMind над проектом. В конце декабря 2016 г. на го-сервере Tygem зарегистрировался новый игрок под именем Magister. Magister одержал 30 побед подряд над лучшими игроками сервера, а затем перешёл на сервер FoxGo, сменив имя на Master, и выиграл ещё 30 раз. Лишь однажды игра была технически признана ничьей, когда у китайского профессионала Чэнь Яое возникли проблемы с подключением к интернету после нескольких начальных ходов партии. Загадочный Master четыре раза одержал победу над корейским игроком девятого дана Пак Чжон Хваном и дважды — над Ке Цзе. Гу Ли также не удалось одолеть неизвестного, и после поражения он пообещал награду в размере 100 000 юаней (около 15 000 долларов) тому, кто сможет это сделать.
Некоторые пользователи сервера заподозрили, что новый игрок не является человеком: Master играл по десять партий в день с небольшими перерывами или вовсе без них. 4 января 2017 г. Демис Хассабис рассказал в Twitter, что за Magister и Master играла обновлённая версия AlphaGo. Благодаря этому эксперименту DeepMind игроки получили возможность изучить приёмы новой версии программы[1].
19 октября 2017 г. в Nature вышла очередная статья[2] от команды AlphaGo. В ней была представлена AlphaGo Zero — новая версия программы, при обучении которой не использовались партии игроков-людей. В процессе обучения AlphaGo Zero за три дня превзошла уровень игры версии AlphaGo, игравшей в матче против Ли Седоля, за 21 день достигла уровня игры AlphaGo Master (той самой версии, что играла на сервере FoxGo под ником Master), а спустя 40 дней стала сильнее всех имевшихся на тот момент версий AlphaGo. По мнению Хассабиса, рекордная сила игры AlphaGo Zero была связана именно с отказом от человеческих знаний, которые лишь ограничивали программу.
AlphaGo Zero также содержала ряд упрощений по сравнению с предыдущими версиями AlphaGo. Например, вместо раздельных «сети политики» и «сети оценки» для обеих задач использовалась одна и та же нейронная сеть. Упрощению подвергся и переборный алгоритм.
Следующим шагом развития AlphaGo Zero стало создание системы AlphaZero, способной играть не только в го, но также и в шахматы и сёги (японские шахматы). Препринт статьи, описывающей AlphaZero, был опубликован[3] на ArXiv 5 декабря 2017 г., а спустя год отчёт об экспериментах с AlphaZero появился и в академической прессе, а именно в журнале Science[4]. Благодаря использованию в процессе обучения 5000 TPU первой версии для моделирования игр и 16 TPU второй версии для обучения нейронной сети, AlphaZero потребовалось чуть больше 30 часов обучения для того, чтобы превзойти AlphaGo Zero, около двух часов для того, чтобы превзойти уровень самой сильной на тот момент программы для игры в сёги (Elmo), и около четырёх часов для того, чтобы обойти самую сильную программу в шахматах — Stockfish. Последний результат (особенно приведённый в статье итог матча AlphaZero и Stockfish — 64 : 36) вызвал ряд споров в сообществе компьютерных шахмат.
- ↑ Коровски Ю. (2017). Искусственный интеллект безжалостно обыгрывает в го всех подряд / XX2 век // https://22century.ru/computer-it/41584
- ↑ Silver D., Schrittwieser J., Simonyan K., Antonoglou I., Huang A., Guez A., Hubert T., Baker L., Lai M., Bolton A., Chen Y., Lillicrap T., Fan H., Sifre L., Driessche G., Graepel T., Hassabis D. (2017). Mastering the game of Go without human knowledge / Nature, Vol. 550 (7676), pp. 354—359 // https://doi.org/10.1038/nature24270
- ↑ Silver D., Hubert T., Schrittwieser J., Antonoglou I., Lai M., Guez A., Lanctot M., Sifre L., Kumaran D., Graepel T., Lillicrap T., Simonyan K., Hassabis D. (2017). Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm // https://arxiv.org/abs/1712.01815
- ↑ Silver D., Hubert T., Schrittwieser J., Antonoglou I., Lai M., Guez A., Lanctot M., Sifre L., Kumaran D., Graepel T., Lillicrap T., Simonyan K., Hassabis D. (2018). A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play / Science, Vol. 362, Iss. 6419, pp. 1140—1144 // https://doi.org/10.1126/science.aar6404