6.2.1 Распознавание изображений
Любите живопись, поэты!
Лишь ей, единственной, дано
Души изменчивой приметы
Переносить на полотно.
Николай Заболоцкий. Портрет
30 сентября 2012 г. свёрточная нейронная сеть, известная сегодня под названием AlexNet, с существенным отрывом заняла первое место в конкурсе ILSVRC 2012 (ImageNet Large Scale Visual Recognition Challenge, Соревнования по широкомасштабному распознаванию изображений ImageNet). Считается, что именно это событие стало отправной точкой для очередного витка общественного интереса к сфере ИИ. Авторы The Economist в статье под названием «От бездействия к действию нейронных сетей» (From not working to neural networking, содержит игру слов not working/networking) так охарактеризовали общественную реакцию на это событие: «внезапно было привлечено внимание людей не только из ИИ‑сообщества, но и из технологической отрасли вообще»[1].
Ежегодные соревнования ILSVRC начали проводиться с 2010 г., однако в 2010 и 2011 гг. нейросетевые модели не участвовали в соревнованиях, а первые места доставались моделям на базе метода опорных векторов (SVM) с различными трюками вроде фишеровских векторов[2], [3], [4]. Таким образом, 30 сентября 2012 г. можно выбрать в качестве даты начала новой весны ИИ, хотя её наступлению предшествовало множество других важных событий. В первую очередь речь идёт о создании самого датасета ImageNet, что было непростой задачей, учитывая тот факт, что по размеру он многократно превосходил все созданные ранее датасеты, а также его многоуровневую систему аннотаций.
В современных популярных статьях по истории нейронных сетей, по всей видимости в силу особенностей самого формата, картина обычно выглядит следующим образом: жил-был Ян Лекун, который изобрёл свёрточные нейронные сети и в 1998 г. показал их эффективность на датасете MNIST. Спустя 12 лет как чёртик из табакерки или, будет правильнее сказать, как фея из сказки появляется Фей-Фей Ли из Стэнфорда, создаёт базу изображений ImageNet, а спустя ещё два года немного доработанная архитектура Лекуна в виде программы AlexNet, благодаря использованию при обучении GPU от Nvidia, рвёт в клочья все богомерзкие SVM’ы — и наступает эра глубокого обучения.
В целом такая картина, конечно, не очень сильно грешит против фактов, но в ней невооружённым глазом заметен некоторый изъян: неясно, чем был вызван двенадцатилетний разрыв. В конце концов, работа Розенблатта над перцептронами продолжалась всего 15 лет, что стало целой эпохой в истории коннекционизма. Казалось бы, ещё в 1990-е гг. работы Лекуна, Хинтона и их коллег показали перспективность нейросетевого подхода, почему же новой весне ИИ потребовалось ждать целых 14 лет? Давайте попробуем разобраться в том, что происходило в области распознавания изображений в это время, и тем самым заполнить пробел в существующей популярной картине истории мира глубокого обучения.
- ↑ From not working to neural networking: The artificial-intelligence boom is based on an old idea, but with a modern twist (2016) / The Economist // https://www.economist.com/special-report/2016/06/23/from-not-working-to-neural-networking
- ↑ Sánchez J., Perronnin F., Mensink T. (2010). Improved Fisher Vector for Large Scale Image Classification XRCE's participation for ILSVRC // http://image-net.org/challenges/LSVRC/2010/ILSVRC2010_XRCE.pdf
- ↑ Lin Y., Lv F., Zhu S., Yang M., Cour T., Yu K., Cao L., Li Z., Tsai M., Zhou X., Huang T., Zhang T. (2010). ImageNet classification: fast descriptor coding and large-scale SVM training // http://image-net.org/challenges/LSVRC/2010/ILSVRC2010_NEC-UIUC.pdf
- ↑ Perronnin F., Sánchez J. (2011). XRCE@ILSVRC2011: Compressed Fisher vectors for LSVR // http://image-net.org/challenges/LSVRC/2011/ilsvrc11.pdf