Перейти к содержанию

5.3.4 Импульсные нейронные сети

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

В целом поступательный рост производительности цифровых вычислительных устройств в совокупности с созданием специализированных процессоров, способных более эффективно выполнять алгоритмы, используемые при обучении и выполнении нейронных сетей, оказали чрезвычайно мощное воздействие на прогресс в области нейросетевых технологий. Нередко приходится слышать, что это стало чуть ли не единственным фактором, определившим прогресс в данной области. Такая точка зрения, безусловно, грубо упрощает информацию о состоянии дел в отрасли и обесценивает усилия разработчиков новых моделей и алгоритмов. Но в то же время глупо было бы отрицать, что некоторые модели и методы просто не могут эффективно применяться в отсутствие соответствующих вычислительных ресурсов. Развитие моделей связано с организацией множества вычислительных экспериментов, для постановки которых необходим доступ к подходящему оборудованию.

Иногда устройства, предназначенные для ускорения работы нейронных сетей, называются также ИИ-ускорителями (AI accelerators) или NPU (Neural Processing Unit, Нейронный процессор). В их число обычно включают также и нейроморфные процессоры, которые мы коротко упомянули в подглаве 4.4.6. Современные нейроморфные системы можно условно разделить на два класса: системы, целью которых является моделирование процессов, происходящих в нервной ткани живых существ, и системы, ставящие своей целью решение прикладных задач искусственного интеллекта на основе импульсных нейронных сетей (spiking neural networks, SNN). Для удобства мы будем называть первые нейроморфными системами типа I, а вторые — нейроморфными системами типа II.

Термин «импульсные нейронные сети» появился с лёгкой руки профессора Вольфганга Маасса, который в своей статье 1997 г. предложил разделить нейронные сети на три поколения. К первому он относил нейронные сети на основе нейронов с пороговой функцией активации, ко второму — сети на основе нейронов с непрерывными функциями активации (сигмоидальными, полиномиальными и т. д.), а к третьему — сети, которые в качестве вычислительных единиц используют так называемые импульсные нейроны[1].

Импульсные нейроны, в отличие от нейронов обычного перцептрона, срабатывают не на каждом из циклов распространения сигнала, а только тогда, когда их мембранный потенциал (т. е. разница в электрическом заряде внутренней и внешней поверхностей клеточной оболочки) достигает определённого значения. Когда нейрон срабатывает, он генерирует сигнал, который передаётся другим нейронам, которые, в свою очередь, увеличивают или уменьшают свои мембранные потенциалы в соответствии с этим сигналом. Несложно убедиться, что источником вдохновения для импульсной модели нейрона послужили работы Луи Лапика, Ходжкина, Хаксли и других нейрофизиологов, занимавшихся изучением распространения электрических сигналов в нервной ткани. Системы уравнений, описывающие накопление потенциала, его утечки, срабатывание нейрона и так далее, могут различаться в различных импульсных моделях. Обычно выбор конкретной модели зависит от области применения нейроморфной системы, именно поэтому модели, лежащие в основах систем типа I, тяготеют к большей биологической достоверности; модели же, лежащие в основе систем типа II, обычно выбираются таким образом, чтобы обеспечить снижение вычислительных затрат и большее удобство применения в используемом типе оборудования. Среди преимуществ систем типа II по сравнению с тензорными процессорами можно назвать их крайне низкий уровень энергопотребления и тепловыделения.

Первые сети третьего поколения (далее — импульсные сети) появились задолго до работ Маасса. Их история не менее интересна, чем история «конвенциональных» искусственных нейронных сетей. У истоков этого направления стоял биофизик Отто Шмитт, известный в качестве автора термина «биомиметика». Старший брат Отто, Фрэнсис, был биологом и изучал в MIT «молекулярную организацию клеток и тканей с особым акцентом на нервные волокна». Отто выбрал близкую тему для исследований в аспирантуре. Он использовал свои знания в области электротехники, стремясь создать искусственные конструкции, способные имитировать распространение импульсов по нервным волокнам. В результате в 1934 г. увидел свет так называемый триггер Шмитта, реализованный на базе электровакуумных триодов. В 1937 г. Шмитт описал его в диссертации под названием «термионный триггер»[2]. Как и для Ходжкина и Хаксли, источником вдохновения для Шмитта стала нервная система кальмара. В 1940 г. собственную электрическую схему для моделирования работы нерва создал французский исследователь Филипп Фабр, известный в наши дни как изобретатель электроглоттографии[3]. В своей работе Фабр ссылается на Лапика, а также на ряд исследователей, изучавших нервную проводимость в 1920–1930‑е гг.[4], [5] Конечно, все эти ранние работы (как и ряд более поздних) не ставили перед собой задачу создания вычислительных устройств. Действующие электрические модели нейрона в те годы создавались главным образом для исследований в области физиологии и медицины[6]. Позже, в 1960 г., на заре эпохи интегральных схем, американский инженер Хьюитт Крейн из Стэнфордского исследовательского института предложил концепцию нейристора [neuristor], способного заменить собой все логические элементы цифровой схемы. Впрочем, признавая, что сам по себе нейристор пока что не создан, автор в качестве варианта предлагал ссылаться на его модель как на «эвристор» [heuristor], чтобы приберечь название «нейристор» до того момента, когда такие устройства будут созданы[7]. Появление таких устройств не заставило себя ждать. Пионерскими работами в этой области стали конструкции Коута и Нагумо.

В 1960–1970-е гг. было предложено множество различных схем реализации нейронных систем, ряд из которых можно отнести к импульсным сетям. Среди интересных проектов в этой области, осуществлявшихся в то время, стоит упомянуть исследования, выполненные в рамках американо-польского научного сотрудничества. Обширная программа совместных исследований финансировалась в начале 1970-х гг. Национальным научным фондом США с использованием польских займов на покупку пшеницы (Польша приобретала американскую пшеницу, что увеличивало её долг перед США, которые снижали размер этого долга на сумму бюджета польской части исследований).

Эта уникальная программа, в рамках которой совместно работали учёные из стран, принадлежавших к разным военно-политическим блокам, была направлена на разработку биполярных и МОП-схем (металл — оксид — полупроводник), подходящих для построения специализированных интегральных схем для искусственных нейронных сетей. Последние с лёгкой руки профессора Николаса Деклариса стали называть микросхемами нейронного типа [neural-type]. С польской стороны проектом руководил доктор Михал Бялко из Гданьского политехнического университета (Politechnika Gdańska), с американской — профессора Декларис и Роберт Ньюкомб из Мэрилендского университета в Колледж-парке (University of Maryland, College Park).

Основными результатами этого исследования в области аппаратного обеспечения стали разработки: на польской стороне — биполярного контура, функционирующего как генератор импульсов, подобный потенциалу действия; на американской стороне — сопутствующей схемы МОП; совместными усилиями — схемы импульсной обработки. Хотя этот проект и не привёл к производству серийных нейроморфных процессоров, некоторые элементы изобретённых в его рамках схем были впоследствии доработаны и использованы в более поздних нейроморфных проектах. Как писал в 2012 г. Ньюкомб: «…все исторические схемы, которые были в основном импульсными, вплоть до 1980-х годов, служили цели шаг за шагом вести нас к более совершенным искусственным нейронным сетям»[8].

В 1970-е гг. советские учёные рассматривали возможность создания оптической нейристорной логики на основе эффекта индуцированной самопрозрачности[9]. В наши дни создание оптических нейронных сетей (Optical neural network, ONN) является важной областью фотоники, и в частности нанофотоники[10].

В конце 1980-х — начале 1990-х годов для создания ONN стали применять голографию[11]. Используя метод лазерного выжигания стабильных спектральных провалов, можно было добавить ещё одно измерение в голографическую запись, обеспечив тем самым реализацию попарных синаптических соединений для всех точек двух двумерных областей. Таким образом, можно было создать полносвязную оптическую нейронную сеть с двумя слоями — входным и выходным[12]. За последние 20 лет были созданы оптические аналоги многих нейросетевых моделей, таких как, например, сети Хопфилда[13], [14], [15] или самоорганизующиеся карты Кохонена на базе жидкокристаллических пространственных модуляторов света[16]. Используя лазеры в качестве источников импульса, можно создать оптические аналоги импульсных нейронных сетей. В качестве элементов фотонных схем для реализации нейронных сетей могут быть использованы электроабсорбционные фотонные модуляторы[17], оптоэлектронные системы на основе сверхпроводящих джозефсоновских переходов[18], системы на основе резонансно-туннельных диодов[19], а также лазеры поверхностного излучения с вертикальным резонатором[20], [21]. Раздел фотоники, использующий схемы на основе таких лазеров, называется «викселоникой» (от аббревиатуры VCSEL (Vertical-cavity surface-emitting laser, поверхностно излучающий лазер с вертикальным резонатором) и слова «фотоника»)[22]. Также в современных оптических сетях линейные операции могут выполняться пространственными модуляторами света и линзами Фурье, а нелинейные функции оптической активации могут быть реализованы в атомах с лазерным охлаждением и электромагнитно индуцированной прозрачностью[23]. В последние годы созданы весьма продвинутые рабочие прототипы систем компьютерного зрения на базе оптических нейронных сетей[24], [25].

Такая разновидность импульсных нейронных сетей, как импульсно связанные нейронные сети (Pulse-coupled neural networks, PCNN), была описана[26] в 1994 г. Джоном Джонсоном — загадочным исследователем из американской армии. Джонсон, в свою очередь, основывался на более ранней модели Экхорна (модель связующего поля; linking-field model, LFM) и его коллег, имитировавшей, как обычно, работу зрительной коры кошки[27], [28].

Хотя большая часть импульсных устройств и моделей, разработанных в 1930–1990-е гг., представляет сегодня по большей мере лишь исторический интерес, эти пионерские работы позволили науке и технологиям шаг за шагом прийти к современным эффективным нейросетевым моделям и устройствам. Коннекционистская зима во многом переформатировала поле нейросетевых исследований, что в итоге привело к появлению нового поколения исследователей и нового набора идей, большинство из которых не были основаны на импульсной парадигме. Однако сегодня наблюдается заметный рост интереса к импульсным нейронным сетям.

По мере прогресса в области свёрточных нейронных сетей появились и их импульсные аналоги — импульсные свёрточные нейронные сети (spiking convolutional neural networks, SCNN)[29]. В целом в наши дни между «классическими» и импульсными сетями наблюдается определённый параллелизм в части структуры синаптических связей: существуют не только импульсные аналоги свёрточных нейронных сетей, но и импульсная версия LSTM[30], импульсные автоэнкодеры[31], импульсные трансформеры[32] и так далее.

Системы типа I обычно применяются в научных и медицинских проектах, направленных на изучение работы мозга и того, каким образом физиологические процессы, протекающие в нём, связаны с различными психическими явлениями. Учёные рассчитывают, что рано или поздно, используя адекватные модели и подходящее оборудование, мы сможем в реальном времени симулировать работу мозга и добиться появления в ходе такой симуляции соответствующих психических феноменов.

  1. Maass W. (1997). Networks of spiking neurons: The third generation of neural network models / Neural Networks, Vol. 10, Iss. 9, December 1997, pp. 1659—1671 // https://doi.org/10.1016/S0893-6080(97)00011-7
  2. Schmitt O. H. (1937). Mechanical Solution of the Equations of Nerve Impulse Propagation / Proceedings of the American Physiological Society, 49th Annual Meeting, Memphis, TN, April, 1937.
  3. Hézard T., Hélie T., Doval B., Bernardoni N. H., Kob M. (2012). Non-invasive vocal-folds monitoring using electrical imaging methods / 100 years of electrical imaging, Jul 2012, Paris, France. pp. 1—4 // https://hal.archives-ouvertes.fr/hal-00769567
  4. Fabre P. (1940). Retour Sur Un Modèle Du Nerf (Première Partie) / Archives Internationales de Physiologie, 50(1), pp. 12—32 // https://doi.org/10.3109/13813454009148741
  5. Fabre P. (1940). Retour Sur Un Modèle Du Nerf (Deuxième Partie) / Archives Internationales de Physiologie, 50(2), pp. 185–196 // https://doi.org/10.3109/13813454009145553
  6. Zaghloul M. E., Meador J. L., Newcomb R. W. (2012). Silicon Implementation of Pulse Coded Neural Networks. Springer Science & Business Media // https://books.google.ru/books?id=rE3hBwAAQBAJ
  7. Crane H. D. (1960). The Neuristor / IEEE Transactions on Electronic Computers, EC-9(3), pp. 370—371 // https://doi.org/10.1109/tec.1960.5219861
  8. Zaghloul M. E., Meador J. L., Newcomb R. W. (2012). Silicon Implementation of Pulse Coded Neural Networks. Springer Science & Business Media // https://books.google.ru/books?id=rE3hBwAAQBAJ
  9. Морозов В. Н., Смолович А. М. (1974). О возможности создания оптической нейристорной логики на основе эффекта индуцированной самопрозрачности / Квантовая электроника. №2, 1974 // http://mi.mathnet.ru/qe6693
  10. * Фотоникой (от греческого φῶς, φωτὁς — свет) называют дисциплину, занимающуюся различными аспектами работы с оптическими сигналами, а также созданием разных устройств на их основе; нанофотоника — это раздел фотоники, изучающий физические процессы, возникающие при взаимодействии фотонов с объектами нанометрового масштаба.
  11. Wagner K., Psaltis D. (1988). Adaptive optical networks using photorefractive crystals / Applied Optics, Vol. 27, Iss. 9, pp. 1752–1759 // https://doi.org/10.1364/AO.27.001752
  12. Weverka R., Wagner K., Saffman M. (1991). Fully interconnected, two-dimensional neural arrays using wavelength-multiplexed volume holograms / Optics Letters, Vol. 16, Iss. 11, pp. 826–828 // https://doi.org/10.1364/OL.16.000826
  13. Jang J. S., Jung S. W., Lee S. Y., Shin S. Y. (1988). Optical implementation of the Hopfield model for two-dimensional associative memory // https://doi.org/10.1364/ol.13.000248
  14. Lin S., Liu L., Wang Z. (1989). Optical implementation of the 2-D Hopfield model for a 2-D associative memory // Optics Communications, Vol. 70, Iss. 2, 15 February 1989, pp. 87–91 // https://doi.org/10.1016/0030-4018(89)90274-5
  15. Ramachandran R., Gunasekaran N. (2000). Optical Implementation of Two Dimensional Bipolar Hopfield Model Neural Network / Proceedings of the National Science Council, Republic of China, Part A, Physical Science and Engineering, Vol. 24, Iss. 1, pp. 73–78
  16. Duvillier J., Killinger M., Heggarty K., Yao K., de Bougrenet de la Tocnaye J. L. (1994). All-optical implementation of a self-organizing map: a preliminary approach / Applied Optics, Vol. 33, Iss. 2, pp. 258–266 // https://doi.org/10.1364/AO.33.000258
  17. George J., Mehrabian A., Amin R., Meng J., de Lima T. F., Tait A. N., Shastri B. J., El-Ghazawi T., Prucnal P. R., Sorger V. J. (2019). Neuromorphic photonics with electro-absorption modulators // https://arxiv.org/abs/1809.03545
  18. Shainline J. M. (2020). Fluxonic Processing of Photonic Synapse Events. / IEEE Journal of Selected Topics in Quantum Electronics, Vol. 26, Iss. 1, pp. 1–15. // https://doi.org/10.1109/JSTQE.2019.2927473
  19. Romeira B., Javaloyes J., Ironside C. N., Figueiredo J. M., Balle S., Piro O. (2013). Excitability and optical pulse generation in semiconductor lasers driven by resonant tunneling diode photo-detectors/ Optics Express, Vol. 21, Iss. 18, pp. 20931–20940. // https://doi.org/10.1364/OE.21.020931
  20. Hejda M., Robertson J., Bueno J., Alanis J., Hurtado A. (2021). Neuromorphic encoding of image pixel data into rate-coded optical spike trains with a photonic VCSEL-neuron / APL Photonics, Vol. 6, Iss. 6, 060802. // https://doi.org/10.1063/5.0048674
  21. Robertson J., Hejda M., Bueno J., Hurtado A. (2020). Ultrafast optical integration and pattern classification for neuromorphic photonics based on spiking VCSEL neurons / Scientific Reports, Vol. 10, Iss. 1, 6098. // https://doi.org/10.1038/s41598-020-62945-5
  22. Белкин М., Яковлев В. (2015). Викселоника — новое направление оптоэлектронной обработки радиосигналов / Электроника. №3 (00143) // http://www.electronics.ru/files/article_pdf/4/article_4594_289.pdf
  23. Zuo Y., Li B., Zhao Y., Jiang Y., Chen Y., Chen P., Jo G., Liu J., Du S. (2019). All-optical neural network with nonlinear activation functions / Optica, Vol. 6, Iss. 9, pp. 1132—1137 // https://doi.org/10.1364/OPTICA.6.001132
  24. Wang T., Sohoni M. M., Wright L. G., Stein M. M., Ma S.-Y., Onodera T., Anderson M. G., McMahon P. L. (2022). Image sensing with multilayer, nonlinear optical neural networks // https://arxiv.org/abs/2207.14293
  25. Wang T., Sohoni M. M., Wright L. G., Stein M. M., Ma S.-Y., Onodera T., Anderson M. G., McMahon P. L. (2023). Image sensing with multilayer, nonlinear optical neural networks / Nature Photonics, Vol. 17, pp. 408–415. // https://doi.org/10.1038/s41566-023-01170-8
  26. Johnson J. L. (1994). Pulse-coupled neural nets: translation, rotation, scale, distortion, and intensity signal invariance for images / Applied Optics, Vol. 33, Iss. 26, pp. 6239—6253 // https://doi.org/10.1364/AO.33.006239
  27. Eckhorn R., Bauer R., Rosch M., Jordan W., Kruse W., Munk M. (1988). Functionally related modules of cat visual cortex shows stimulus-evoked coherent oscillations: a multiple electrode study / Investigative Ophthalmology & Visual Science, Vol. 29, 331—343 // https://doi.org/10.1364/ao.33.006239
  28. Eckhorn R., Bauer R., Jordan W., Brosch M., Kruse M., Munk M., Reitboeck H. J. (1988). Coherent Oscillations: A Mechanism of Feature Linking in the Visual Cortex? Multiple Electrode and Correlation Analyses in the Cat / Biological Cybernetics, Vol. 60, pp. 121—130 // https://doi.org/10.1007/BF00202899
  29. Lee C., Panda P., Srinivasan G., Roy K. (2018). Training Deep Spiking Convolutional Neural Networks With STDP-Based Unsupervised Pre-training Followed by Supervised Fine-Tuning / Frontiers in Neuroscience, Vol. 12, 2018 // https://doi.org/10.3389/fnins.2018.00435
  30. Shrestha A., Ahmed K., Wang Y., Widemann D. P., Moody A. T., Van Essen B. C., Qiu Q. (2017). A spike-based long short-term memory on a neurosynaptic processor / IEEE/ACM International Conference on Computer-Aided Design (ICCAD), Irvine, CA, 2017, pp. 631—637 // https://doi.org/10.1109/ICCAD.2017.8203836
  31. Burbank K. S. (2015). Mirrored STDP Implements Autoencoder Learning in a Network of Spiking Neurons / PLoS: Computational biology, December 3, 2015 // https://doi.org/10.1371/journal.pcbi.1004566
  32. Zhu R.-J., Zhao Q., Li G., Eshraghian J. K. (2023). SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks // https://arxiv.org/abs/2302.1393
Loading comments...