5.3.4 Импульсные нейронные сети
В целом поступательный рост производительности цифровых вычислительных устройств в совокупности с созданием специализированных процессоров, способных более эффективно выполнять алгоритмы, используемые при обучении и выполнении нейронных сетей, оказали чрезвычайно мощное воздействие на прогресс в области нейросетевых технологий. Нередко приходится слышать, что это стало чуть ли не единственным фактором, определившим прогресс в данной области. Такая точка зрения, безусловно, грубо упрощает информацию о состоянии дел в отрасли и обесценивает усилия разработчиков новых моделей и алгоритмов. Но в то же время глупо было бы отрицать, что некоторые модели и методы просто не могут эффективно применяться в отсутствие соответствующих вычислительных ресурсов. Развитие моделей связано с организацией множества вычислительных экспериментов, для постановки которых необходим доступ к подходящему оборудованию.
Иногда устройства, предназначенные для ускорения работы нейронных сетей, называются также ИИ-ускорителями (AI accelerators) или NPU (Neural Processing Unit, Нейронный процессор). В их число обычно включают также и нейроморфные процессоры, которые мы коротко упомянули в подглаве 4.4.6. Современные нейроморфные системы можно условно разделить на два класса: системы, целью которых является моделирование процессов, происходящих в нервной ткани живых существ, и системы, ставящие своей целью решение прикладных задач искусственного интеллекта на основе импульсных нейронных сетей (spiking neural networks, SNN). Для удобства мы будем называть первые нейроморфными системами типа I, а вторые — нейроморфными системами типа II.
Термин «импульсные нейронные сети» появился с лёгкой руки профессора Вольфганга Маасса, который в своей статье 1997 г. предложил разделить нейронные сети на три поколения. К первому он относил нейронные сети на основе нейронов с пороговой функцией активации, ко второму — сети на основе нейронов с непрерывными функциями активации (сигмоидальными, полиномиальными и т. д.), а к третьему — сети, которые в качестве вычислительных единиц используют так называемые импульсные нейроны[1].
Импульсные нейроны, в отличие от нейронов обычного перцептрона, срабатывают не на каждом из циклов распространения сигнала, а только тогда, когда их мембранный потенциал (т. е. разница в электрическом заряде внутренней и внешней поверхностей клеточной оболочки) достигает определённого значения. Когда нейрон срабатывает, он генерирует сигнал, который передаётся другим нейронам, которые, в свою очередь, увеличивают или уменьшают свои мембранные потенциалы в соответствии с этим сигналом. Несложно убедиться, что источником вдохновения для импульсной модели нейрона послужили работы Луи Лапика, Ходжкина, Хаксли и других нейрофизиологов, занимавшихся изучением распространения электрических сигналов в нервной ткани. Системы уравнений, описывающие накопление потенциала, его утечки, срабатывание нейрона и так далее, могут различаться в различных импульсных моделях. Обычно выбор конкретной модели зависит от области применения нейроморфной системы, именно поэтому модели, лежащие в основах систем типа I, тяготеют к большей биологической достоверности; модели же, лежащие в основе систем типа II, обычно выбираются таким образом, чтобы обеспечить снижение вычислительных затрат и большее удобство применения в используемом типе оборудования. Среди преимуществ систем типа II по сравнению с тензорными процессорами можно назвать их крайне низкий уровень энергопотребления и тепловыделения.
Первые сети третьего поколения (далее — импульсные сети) появились задолго до работ Маасса. Их история не менее интересна, чем история «конвенциональных» искусственных нейронных сетей. У истоков этого направления стоял биофизик Отто Шмитт, известный в качестве автора термина «биомиметика». Старший брат Отто, Фрэнсис, был биологом и изучал в MIT «молекулярную организацию клеток и тканей с особым акцентом на нервные волокна». Отто выбрал близкую тему для исследований в аспирантуре. Он использовал свои знания в области электротехники, стремясь создать искусственные конструкции, способные имитировать распространение импульсов по нервным волокнам. В результате в 1934 г. увидел свет так называемый триггер Шмитта, реализованный на базе электровакуумных триодов. В 1937 г. Шмитт описал его в диссертации под названием «термионный триггер»[2]. Как и для Ходжкина и Хаксли, источником вдохновения для Шмитта стала нервная система кальмара. В 1940 г. собственную электрическую схему для моделирования работы нерва создал французский исследователь Филипп Фабр, известный в наши дни как изобретатель электроглоттографии[3]. В своей работе Фабр ссылается на Лапика, а также на ряд исследователей, изучавших нервную проводимость в 1920–1930‑е гг.[4], [5] Конечно, все эти ранние работы (как и ряд более поздних) не ставили перед собой задачу создания вычислительных устройств. Действующие электрические модели нейрона в те годы создавались главным образом для исследований в области физиологии и медицины[6]. Позже, в 1960 г., на заре эпохи интегральных схем, американский инженер Хьюитт Крейн из Стэнфордского исследовательского института предложил концепцию нейристора [neuristor], способного заменить собой все логические элементы цифровой схемы. Впрочем, признавая, что сам по себе нейристор пока что не создан, автор в качестве варианта предлагал ссылаться на его модель как на «эвристор» [heuristor], чтобы приберечь название «нейристор» до того момента, когда такие устройства будут созданы[7]. Появление таких устройств не заставило себя ждать. Пионерскими работами в этой области стали конструкции Коута и Нагумо.
В 1960–1970-е гг. было предложено множество различных схем реализации нейронных систем, ряд из которых можно отнести к импульсным сетям. Среди интересных проектов в этой области, осуществлявшихся в то время, стоит упомянуть исследования, выполненные в рамках американо-польского научного сотрудничества. Обширная программа совместных исследований финансировалась в начале 1970-х гг. Национальным научным фондом США с использованием польских займов на покупку пшеницы (Польша приобретала американскую пшеницу, что увеличивало её долг перед США, которые снижали размер этого долга на сумму бюджета польской части исследований).
Эта уникальная программа, в рамках которой совместно работали учёные из стран, принадлежавших к разным военно-политическим блокам, была направлена на разработку биполярных и МОП-схем (металл — оксид — полупроводник), подходящих для построения специализированных интегральных схем для искусственных нейронных сетей. Последние с лёгкой руки профессора Николаса Деклариса стали называть микросхемами нейронного типа [neural-type]. С польской стороны проектом руководил доктор Михал Бялко из Гданьского политехнического университета (Politechnika Gdańska), с американской — профессора Декларис и Роберт Ньюкомб из Мэрилендского университета в Колледж-парке (University of Maryland, College Park).
Основными результатами этого исследования в области аппаратного обеспечения стали разработки: на польской стороне — биполярного контура, функционирующего как генератор импульсов, подобный потенциалу действия; на американской стороне — сопутствующей схемы МОП; совместными усилиями — схемы импульсной обработки. Хотя этот проект и не привёл к производству серийных нейроморфных процессоров, некоторые элементы изобретённых в его рамках схем были впоследствии доработаны и использованы в более поздних нейроморфных проектах. Как писал в 2012 г. Ньюкомб: «…все исторические схемы, которые были в основном импульсными, вплоть до 1980-х годов, служили цели шаг за шагом вести нас к более совершенным искусственным нейронным сетям»[8].
В 1970-е гг. советские учёные рассматривали возможность создания оптической нейристорной логики на основе эффекта индуцированной самопрозрачности[9]. В наши дни создание оптических нейронных сетей (Optical neural network, ONN) является важной областью фотоники, и в частности нанофотоники[10].
В конце 1980-х — начале 1990-х годов для создания ONN стали применять голографию[11]. Используя метод лазерного выжигания стабильных спектральных провалов, можно было добавить ещё одно измерение в голографическую запись, обеспечив тем самым реализацию попарных синаптических соединений для всех точек двух двумерных областей. Таким образом, можно было создать полносвязную оптическую нейронную сеть с двумя слоями — входным и выходным[12]. За последние 20 лет были созданы оптические аналоги многих нейросетевых моделей, таких как, например, сети Хопфилда[13], [14], [15] или самоорганизующиеся карты Кохонена на базе жидкокристаллических пространственных модуляторов света[16]. Используя лазеры в качестве источников импульса, можно создать оптические аналоги импульсных нейронных сетей. В качестве элементов фотонных схем для реализации нейронных сетей могут быть использованы электроабсорбционные фотонные модуляторы[17], оптоэлектронные системы на основе сверхпроводящих джозефсоновских переходов[18], системы на основе резонансно-туннельных диодов[19], а также лазеры поверхностного излучения с вертикальным резонатором[20], [21]. Раздел фотоники, использующий схемы на основе таких лазеров, называется «викселоникой» (от аббревиатуры VCSEL (Vertical-cavity surface-emitting laser, поверхностно излучающий лазер с вертикальным резонатором) и слова «фотоника»)[22]. Также в современных оптических сетях линейные операции могут выполняться пространственными модуляторами света и линзами Фурье, а нелинейные функции оптической активации могут быть реализованы в атомах с лазерным охлаждением и электромагнитно индуцированной прозрачностью[23]. В последние годы созданы весьма продвинутые рабочие прототипы систем компьютерного зрения на базе оптических нейронных сетей[24], [25].
Такая разновидность импульсных нейронных сетей, как импульсно связанные нейронные сети (Pulse-coupled neural networks, PCNN), была описана[26] в 1994 г. Джоном Джонсоном — загадочным исследователем из американской армии. Джонсон, в свою очередь, основывался на более ранней модели Экхорна (модель связующего поля; linking-field model, LFM) и его коллег, имитировавшей, как обычно, работу зрительной коры кошки[27], [28].
Хотя большая часть импульсных устройств и моделей, разработанных в 1930–1990-е гг., представляет сегодня по большей мере лишь исторический интерес, эти пионерские работы позволили науке и технологиям шаг за шагом прийти к современным эффективным нейросетевым моделям и устройствам. Коннекционистская зима во многом переформатировала поле нейросетевых исследований, что в итоге привело к появлению нового поколения исследователей и нового набора идей, большинство из которых не были основаны на импульсной парадигме. Однако сегодня наблюдается заметный рост интереса к импульсным нейронным сетям.
По мере прогресса в области свёрточных нейронных сетей появились и их импульсные аналоги — импульсные свёрточные нейронные сети (spiking convolutional neural networks, SCNN)[29]. В целом в наши дни между «классическими» и импульсными сетями наблюдается определённый параллелизм в части структуры синаптических связей: существуют не только импульсные аналоги свёрточных нейронных сетей, но и импульсная версия LSTM[30], импульсные автоэнкодеры[31], импульсные трансформеры[32] и так далее.
Системы типа I обычно применяются в научных и медицинских проектах, направленных на изучение работы мозга и того, каким образом физиологические процессы, протекающие в нём, связаны с различными психическими явлениями. Учёные рассчитывают, что рано или поздно, используя адекватные модели и подходящее оборудование, мы сможем в реальном времени симулировать работу мозга и добиться появления в ходе такой симуляции соответствующих психических феноменов.
- ↑ Maass W. (1997). Networks of spiking neurons: The third generation of neural network models / Neural Networks, Vol. 10, Iss. 9, December 1997, pp. 1659—1671 // https://doi.org/10.1016/S0893-6080(97)00011-7
- ↑ Schmitt O. H. (1937). Mechanical Solution of the Equations of Nerve Impulse Propagation / Proceedings of the American Physiological Society, 49th Annual Meeting, Memphis, TN, April, 1937.
- ↑ Hézard T., Hélie T., Doval B., Bernardoni N. H., Kob M. (2012). Non-invasive vocal-folds monitoring using electrical imaging methods / 100 years of electrical imaging, Jul 2012, Paris, France. pp. 1—4 // https://hal.archives-ouvertes.fr/hal-00769567
- ↑ Fabre P. (1940). Retour Sur Un Modèle Du Nerf (Première Partie) / Archives Internationales de Physiologie, 50(1), pp. 12—32 // https://doi.org/10.3109/13813454009148741
- ↑ Fabre P. (1940). Retour Sur Un Modèle Du Nerf (Deuxième Partie) / Archives Internationales de Physiologie, 50(2), pp. 185–196 // https://doi.org/10.3109/13813454009145553
- ↑ Zaghloul M. E., Meador J. L., Newcomb R. W. (2012). Silicon Implementation of Pulse Coded Neural Networks. Springer Science & Business Media // https://books.google.ru/books?id=rE3hBwAAQBAJ
- ↑ Crane H. D. (1960). The Neuristor / IEEE Transactions on Electronic Computers, EC-9(3), pp. 370—371 // https://doi.org/10.1109/tec.1960.5219861
- ↑ Zaghloul M. E., Meador J. L., Newcomb R. W. (2012). Silicon Implementation of Pulse Coded Neural Networks. Springer Science & Business Media // https://books.google.ru/books?id=rE3hBwAAQBAJ
- ↑ Морозов В. Н., Смолович А. М. (1974). О возможности создания оптической нейристорной логики на основе эффекта индуцированной самопрозрачности / Квантовая электроника. №2, 1974 // http://mi.mathnet.ru/qe6693
- ↑ * Фотоникой (от греческого φῶς, φωτὁς — свет) называют дисциплину, занимающуюся различными аспектами работы с оптическими сигналами, а также созданием разных устройств на их основе; нанофотоника — это раздел фотоники, изучающий физические процессы, возникающие при взаимодействии фотонов с объектами нанометрового масштаба.
- ↑ Wagner K., Psaltis D. (1988). Adaptive optical networks using photorefractive crystals / Applied Optics, Vol. 27, Iss. 9, pp. 1752–1759 // https://doi.org/10.1364/AO.27.001752
- ↑ Weverka R., Wagner K., Saffman M. (1991). Fully interconnected, two-dimensional neural arrays using wavelength-multiplexed volume holograms / Optics Letters, Vol. 16, Iss. 11, pp. 826–828 // https://doi.org/10.1364/OL.16.000826
- ↑ Jang J. S., Jung S. W., Lee S. Y., Shin S. Y. (1988). Optical implementation of the Hopfield model for two-dimensional associative memory // https://doi.org/10.1364/ol.13.000248
- ↑ Lin S., Liu L., Wang Z. (1989). Optical implementation of the 2-D Hopfield model for a 2-D associative memory // Optics Communications, Vol. 70, Iss. 2, 15 February 1989, pp. 87–91 // https://doi.org/10.1016/0030-4018(89)90274-5
- ↑ Ramachandran R., Gunasekaran N. (2000). Optical Implementation of Two Dimensional Bipolar Hopfield Model Neural Network / Proceedings of the National Science Council, Republic of China, Part A, Physical Science and Engineering, Vol. 24, Iss. 1, pp. 73–78
- ↑ Duvillier J., Killinger M., Heggarty K., Yao K., de Bougrenet de la Tocnaye J. L. (1994). All-optical implementation of a self-organizing map: a preliminary approach / Applied Optics, Vol. 33, Iss. 2, pp. 258–266 // https://doi.org/10.1364/AO.33.000258
- ↑ George J., Mehrabian A., Amin R., Meng J., de Lima T. F., Tait A. N., Shastri B. J., El-Ghazawi T., Prucnal P. R., Sorger V. J. (2019). Neuromorphic photonics with electro-absorption modulators // https://arxiv.org/abs/1809.03545
- ↑ Shainline J. M. (2020). Fluxonic Processing of Photonic Synapse Events. / IEEE Journal of Selected Topics in Quantum Electronics, Vol. 26, Iss. 1, pp. 1–15. // https://doi.org/10.1109/JSTQE.2019.2927473
- ↑ Romeira B., Javaloyes J., Ironside C. N., Figueiredo J. M., Balle S., Piro O. (2013). Excitability and optical pulse generation in semiconductor lasers driven by resonant tunneling diode photo-detectors/ Optics Express, Vol. 21, Iss. 18, pp. 20931–20940. // https://doi.org/10.1364/OE.21.020931
- ↑ Hejda M., Robertson J., Bueno J., Alanis J., Hurtado A. (2021). Neuromorphic encoding of image pixel data into rate-coded optical spike trains with a photonic VCSEL-neuron / APL Photonics, Vol. 6, Iss. 6, 060802. // https://doi.org/10.1063/5.0048674
- ↑ Robertson J., Hejda M., Bueno J., Hurtado A. (2020). Ultrafast optical integration and pattern classification for neuromorphic photonics based on spiking VCSEL neurons / Scientific Reports, Vol. 10, Iss. 1, 6098. // https://doi.org/10.1038/s41598-020-62945-5
- ↑ Белкин М., Яковлев В. (2015). Викселоника — новое направление оптоэлектронной обработки радиосигналов / Электроника. №3 (00143) // http://www.electronics.ru/files/article_pdf/4/article_4594_289.pdf
- ↑ Zuo Y., Li B., Zhao Y., Jiang Y., Chen Y., Chen P., Jo G., Liu J., Du S. (2019). All-optical neural network with nonlinear activation functions / Optica, Vol. 6, Iss. 9, pp. 1132—1137 // https://doi.org/10.1364/OPTICA.6.001132
- ↑ Wang T., Sohoni M. M., Wright L. G., Stein M. M., Ma S.-Y., Onodera T., Anderson M. G., McMahon P. L. (2022). Image sensing with multilayer, nonlinear optical neural networks // https://arxiv.org/abs/2207.14293
- ↑ Wang T., Sohoni M. M., Wright L. G., Stein M. M., Ma S.-Y., Onodera T., Anderson M. G., McMahon P. L. (2023). Image sensing with multilayer, nonlinear optical neural networks / Nature Photonics, Vol. 17, pp. 408–415. // https://doi.org/10.1038/s41566-023-01170-8
- ↑ Johnson J. L. (1994). Pulse-coupled neural nets: translation, rotation, scale, distortion, and intensity signal invariance for images / Applied Optics, Vol. 33, Iss. 26, pp. 6239—6253 // https://doi.org/10.1364/AO.33.006239
- ↑ Eckhorn R., Bauer R., Rosch M., Jordan W., Kruse W., Munk M. (1988). Functionally related modules of cat visual cortex shows stimulus-evoked coherent oscillations: a multiple electrode study / Investigative Ophthalmology & Visual Science, Vol. 29, 331—343 // https://doi.org/10.1364/ao.33.006239
- ↑ Eckhorn R., Bauer R., Jordan W., Brosch M., Kruse M., Munk M., Reitboeck H. J. (1988). Coherent Oscillations: A Mechanism of Feature Linking in the Visual Cortex? Multiple Electrode and Correlation Analyses in the Cat / Biological Cybernetics, Vol. 60, pp. 121—130 // https://doi.org/10.1007/BF00202899
- ↑ Lee C., Panda P., Srinivasan G., Roy K. (2018). Training Deep Spiking Convolutional Neural Networks With STDP-Based Unsupervised Pre-training Followed by Supervised Fine-Tuning / Frontiers in Neuroscience, Vol. 12, 2018 // https://doi.org/10.3389/fnins.2018.00435
- ↑ Shrestha A., Ahmed K., Wang Y., Widemann D. P., Moody A. T., Van Essen B. C., Qiu Q. (2017). A spike-based long short-term memory on a neurosynaptic processor / IEEE/ACM International Conference on Computer-Aided Design (ICCAD), Irvine, CA, 2017, pp. 631—637 // https://doi.org/10.1109/ICCAD.2017.8203836
- ↑ Burbank K. S. (2015). Mirrored STDP Implements Autoencoder Learning in a Network of Spiking Neurons / PLoS: Computational biology, December 3, 2015 // https://doi.org/10.1371/journal.pcbi.1004566
- ↑ Zhu R.-J., Zhao Q., Li G., Eshraghian J. K. (2023). SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks // https://arxiv.org/abs/2302.1393