Перейти к содержанию

8.2 Облачные технологии и распределённое обучение

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Вижу Землю!.. Различаю складки местности, снег, лес… Наблюдаю облака… Красиво. Красота!

Юрий Гагарин

Одним из не совсем очевидных последствий развития нейросетевых моделей стал ренессанс систем централизованной обработки данных. На рубеже тысячелетий мир, казалось, окончательно забыл об эпохе мейнфреймов. Разработчики и пользователи окончательно пересели на персоналки, а машинное время и оборудование стали пренебрежимо дешёвыми по сравнению с рабочей силой программистов. Мир, в котором месячная заработная плата оператора ЭВМ сопоставима с себестоимостью часа работы машины (вспомним рассуждения сторонников «программирования в содержательных обозначениях» в 1960-е гг.), стал чем-то легендарным и не имеющим никакого отношения к нынешним реалиям. Поэтому для многих оказалось полной неожиданностью, что некоторые модели теперь требуют для обучения такого оборудования, которое оказалось не по карману разработчикам, несмотря на беспрецедентно высокий уровень зарплат в отрасли. Особенно очевидно это стало с появлением моделей на основе трансформеров — приспособленность этой архитектуры к параллельным вычислениям позволила буквально «закидывать» некоторые задачи высокопроизводительным тензорным «железом». Впрочем, нейросетевые модели изначально были предназначены для параллельных вычислений. Неслучайно у истоков революции глубокого обучения стояла исследовательская группа PDP (Parallel distributed processing, то есть «Параллельные распределённые вычисления»).

Новой инкарнацией мейнфреймов стали облачные сервисы, предоставляющие пользователям доступ к высокопроизводительному тензорному оборудованию — к быстрым GPU и TPU. Google Cloud AI, Amazon Web Services (AWS), Azure от Microsoft, IBM Watson, российские GPU Super Cloud от #CloudMTS, Yandex DataSphere, ML Space от «Сбера» — все эти сервисы относятся к числу так называемых платформ MLaaS (Machine Learning as a Service, Машинное обучение как сервис). По сути дела, они обеспечивают совместный доступ к мощным аппаратным платформам на основе принципа разделения времени. Себестоимость обучения некоторых больших моделей машинного обучения перевалила за миллион долларов. Себестоимость обучения GPT-3, по оценкам экспертов, достигла 4,6 млн долларов[1], что примерно на три порядка больше годовой зарплаты рядового специалиста из страны третьего мира, занятого разметкой данных для задач машинного обучения.

Если первое поколение «железа» для MLaaS представляло собой просто множество серверов, оснащённых GPU или TPU, то современные решения в этой области основаны на специализированных вычислительных узлах, связанных между собой сверхбыстрыми каналами обмена данными. Вслед за MLaaS появились платформы GaaS (Games as a Service, Игры как сервис), предоставляющие любителям компьютерных игр доступ к высокопроизводительному игровому оборудованию — главным образом всё к тем же GPU. Таким образом, высокая стоимость оборудования стимулировала развитие новых практик его использования. Важным фактором здесь стал и бум криптовалют, также увеличивший потребность в вычислительных мощностях и подстегнувший рост цен на высокопроизводительное, в том числе тензорное, «железо». Развитие аппаратных платформ, в свою очередь, подстегнуло дальнейшие эксперименты со сверхбольшими моделями. Трудно сказать, куда именно приведёт наметившийся тренд. Возможно, к превращению всей Солнечной системы в одно гигантское вычислительное устройство, частью которого станут и тела людей. Кто знает, быть может, некоторые чёрные дыры — это гигантские гиперкомпьютеры сверхцивилизаций, в которых, как в коконах, сокрыты бесчисленные виртуальные миры, в которых дремлют потомки разумных видов, некогда подобных нашему.

Впрочем, рука об руку с централизацией вычислений в машинном обучении идут процессы, направленные на его децентрализацию. Для их обозначения обычно используют термин «федеративное обучение» [federated learning] (или «совместное обучение» [collaborative learning]). К этой сфере относятся методы машинного обучения, которые используют вычисления на децентрализованных устройствах, каждое из которых содержит некоторое подмножество обучающей выборки. Федеративное обучение позволяет нескольким участникам создавать общую модель машинного обучения без непосредственного обмена данными, что даёт возможность решать такие важные проблемы, как конфиденциальность и безопасность данных, разграничивать доступ к отдельным типам данных или отдельным прецедентам обучающей выборки. Федеративное обучение активно используется в ряде отраслей, таких как телекоммуникации, интернет вещей, фармацевтика и оборона. В настоящее время разработано множество разновидностей и специализированных алгоритмов федеративного обучения. Они позволяют системам машинного обучения преодолевать барьеры, связанные с многочисленными ограничениями на доступ к данным, необходимым для создания эффективных моделей. Пока сами эти барьеры существуют, будут развиваться и технологии, позволяющие машинному обучению выжить в условиях информационной раздробленности. Кто знает, быть может, будущее Земли будет больше похоже на быт азимовской планеты Солярия, жители которой избегают физических контактов и живут в отдалённых друг от друга укреплённых поместьях, обслуживающихся роботами[2]. По крайней мере, в эпоху пандемии коронавируса мы, кажется, сделали шаг именно в эту сторону.

Так или иначе, как централизованные, так и распределённые схемы машинного обучения будут продолжать своё развитие в ближайшей перспективе, а вместе с ними будут развиваться соответствующие алгоритмы и модели.

  1. Dickson B. (2020). The GPT-3 economy / TechTalks, September 21, 2020 // https://bdtechtalks.com/2020/09/21/gpt-3-economy-business-model/
  2. Asimov A. (2016). Foundation and Earth. HarperCollins Publishers // https://books.google.ru/books?id=0DW0rQEACAAJ
Loading comments...