Перейти к содержанию

5.2.5.1 Обсуждение теоретической возможности

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Возможность создания рекуррентных нейронных сетей, то есть таких сетей, в которых цепи распространения сигнала могут образовывать петли, рассматривалась ещё Мак-Каллоком и Питтсом. Рекуррентная нейронная сеть, по сути дела, обладает памятью, а значит, удобна для обработки последовательностей стимулов. Получая стимул на вход, рекуррентная нейронная сеть использует для вычисления выходного сигнала не только входные сигналы, соответствующие данному импульсу, но и сигналы, циркулирующие в контурах сети. Можно сказать, что под влиянием входных сигналов рекуррентная сеть может изменять своё внутреннее состояние, которое влияет затем на выходы сети.

Всё это довольно сильно напоминает работу конечного автомата, и неслучайно. Стивен Клини, один из пионеров теории конечных автоматов, был хорошо знаком с работами Мак-Каллока и Питтса и использовал их идеи в качестве отправной точки собственных исследований. Клини формализовал наборы входных последовательностей, которые приводили сеть Мак-Каллока — Питтса в заданное состояние, а позже Минский показал, что любой конечный автомат может быть смоделирован с помощью рекуррентной нейронной сети с дискретным временем, основанной на искусственных нейронах Мак-Каллока и Питтса[1].

Сети с рекуррентными связями упоминаются в работах классиков коннекционистского подхода, например у Розенблатта и Галушкина, причём у первого их анализу посвящена значительная часть его основного теоретического труда. Однако на практике рекуррентные сети в 1960-е и 1970-е гг. использовались крайне редко. Действительно, довольно очевидно, что естественные нейронные сети содержат циклы. Но как должен выглядеть эффективный способ обучения такой сети, если даже для нерекуррентных глубоких сетей он на тот момент не был известен? Для реализации механизма памяти вполне подходят изменяемые синаптические веса. При обработке последовательностей в большинстве случаев можно использовать фиксированное окно (т. е. на каждом шаге обработки на вход модели подаётся фрагмент последовательности фиксированной длины, заканчивающийся текущей позицией), охватывающее достаточный по длине фрагмент последовательности, как это делается, например, в TDNN. И тем не менее рекуррентные нейронные сети привлекали внимание коннекционистов с самого начала — благодаря своей универсальности.

В «Принципах нейродинамики» Розенблатт вводит понятие перцептрона с перекрёстными связями [cross-coupled], то есть такого перцептрона, в котором некоторые связи соединяют нейроны одного и того же типа (S, A или R), находящиеся на одинаковом «логическом расстоянии» от S-блоков, причём все другие соединения относятся к последовательному типу. Это определение допускает наличие циклов распространения сигнала в пределах одного слоя (сигнал не может вернуться из A-слоя в S-слой, но может циркулировать между нейронами A-слоя, однако в такой сети понятие A-слоя становится достаточно условным, поскольку этот слой топологически может объединять в себе произвольное число слоёв нерекуррентной сети). По этому поводу Розенблатт пишет следующее: «Наиболее интересными свойствами перцептронов с перекрёстными связями являются те, которые возникают в результате возможности создания замкнутых цепей обратной связи (циклов) в сети». Он также отмечает, что при наличии циклов состояние сети в каждый момент времени становится функцией не только текущего сенсорного входа и сигналов, передаваемых в моменте, но и предыдущей последовательности входов и прошлых состояний активности. В свете этого становится важным вопрос о стабильности сети: некоторые подобные сети, единожды получив на вход стимул, перейдут в состояние полной активности, которая не даст каким-либо дополнительным стимулам произвести какое-либо воздействие на них, другие будут порождать колебания, а третьи придут в стабильное неизменное состояние. Изучению адаптивных процессов в перцептронах с перекрёстными связями и замкнутыми цепями Розенблатт посвящает всю 19-ю главу «Принципов нейродинамики». И это не всё — в тексте упомянуты ещё и перцептроны с обратными связями [back-coupled], в которых сигнал может возвращаться в предшествующие слои сети[2]. Вообще, книга Розенблатта прекрасна тем, что её автор в некотором роде изобрёл практически всё, что только можно. Здесь вы найдёте и идею внимания [attention], благодаря развитию которой в последние годы удалось продвинуться в решении многих сложных задач искусственного интеллекта, и рекуррентные сети, и сети с изменяемой топологией, и зачатки идей о свёрточных сетях и обратном распространении ошибки, и даже бимодальные перцептроны, получающие на вход одновременно визуальные и звуковые стимулы[3]. Многие идеи Розенблатта всё ещё ждут тех, кто изучит их с применением современных методов и аппаратных ресурсов и, возможно, найдёт в них зачатки новых, более продвинутых нейросетевых моделей и методов.

Самому Розенблатту не довелось на практике продвинуться в изучении рекуррентных сетей, и в этой сфере на многие годы воцарилось относительное затишье, нарушенное только в 1980-е гг.

К тому времени исследования первой волны коннекционистов были во многом забыты. Некоторые специалисты в области нейронных сетей считали тогда, что вклад Розенблатта ограничивался созданием лишь однослойного перцептрона. Весьма характерна переписка на Stack Exchange по поводу истоков рекуррентных нейронных сетей. Один из пользователей жалуется, что может найти исходную публикацию по одной из современных рекуррентных нейросетевых архитектур, но никак не может отыскать работу, которая ввела в оборот стандартную («ванильную», vanilla) рекуррентную сеть (Recurrent neural network, RNN)[4]. Словом, с улучшенным брендированным стиральным порошком всё ясно, но кто же изобрёл знаменитый обычный порошок?

Если не принимать в расчёт Фукусиму, у которого при описании архитектуры когнитрона упоминается механизм обратного латерального торможения [backward lateral inhibition] (когда активация нейрона вызывает ослабление сигнала в смежных нейронах предыдущего слоя) лишь для того, чтобы получить немедленную замену в виде прямого [forward] латерального торможения (когда активация нейронов вызывает ослабление сигнала в соседних нейронах того же слоя) в целях ускорения вычислений, то серьёзные исследования в отношении рекуррентных нейронных сетей были предприняты лишь через два десятилетия после выхода в свет «Принципов нейродинамики». Ими заинтересовалась исследовательская группа PDP Румельхарта, в которую среди прочих входили психолингвист Джеффри Элман и когнитивист Майкл Джордан[5].

  1. Arbib M. Review of “Computation: Finite and Infinite Machines” (Minsky, Marvin; 1967) / IEEE Transactions on Information Theory, 1968; 14:354–355 // https://doi.org/10.1109/TIT.1968.1054133
  2. Rosenblatt F. (1961). Principles of Neurodynamics. Perceptrons and the Theory of Brain Mechanisms. Cornell aeronautical lab inc., Buffalo, New York. Defense Technical Information Center // https://books.google.ru/books?id=Tk2tDAEACAAJ
  3. Rosenblatt F. (1961). Principles of Neurodynamics. Perceptrons and the Theory of Brain Mechanisms. Cornell aeronautical lab inc., Buffalo, New York. Defense Technical Information Center // https://books.google.ru/books?id=Tk2tDAEACAAJ
  4. Tarique A. (2018). Where can I find the original paper that introduced RNNs? / StackExchange: Artificial Intelligence // https://ai.stackexchange.com/questions/8190/where-can-i-find-the-original-paper-that-introduced-rnns
  5. Nilsson N. J. (2009). The Quest for Artificial Intelligence. Cambridge University Press // https://books.google.ru/books?id=nUJdAAAAQBAJ
Loading comments...