Перейти к содержанию

6.2.1 Распознавание изображений

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Любите живопись, поэты!

Лишь ей, единственной, дано

Души изменчивой приметы

Переносить на полотно.

Николай Заболоцкий. Портрет

30 сентября 2012 г. свёрточная нейронная сеть, известная сегодня под названием AlexNet, с существенным отрывом заняла первое место в конкурсе ILSVRC 2012 (ImageNet Large Scale Visual Recognition Challenge, Соревнования по широкомасштабному распознаванию изображений ImageNet). Считается, что именно это событие стало отправной точкой для очередного витка общественного интереса к сфере ИИ. Авторы The Economist в статье под названием «От бездействия к действию нейронных сетей» (From not working to neural networking, содержит игру слов not working/networking) так охарактеризовали общественную реакцию на это событие: «внезапно было привлечено внимание людей не только из ИИ‑сообщества, но и из технологической отрасли вообще»[1].

Ежегодные соревнования ILSVRC начали проводиться с 2010 г., однако в 2010 и 2011 гг. нейросетевые модели не участвовали в соревнованиях, а первые места доставались моделям на базе метода опорных векторов (SVM) с различными трюками вроде фишеровских векторов[2], [3], [4]. Таким образом, 30 сентября 2012 г. можно выбрать в качестве даты начала новой весны ИИ, хотя её наступлению предшествовало множество других важных событий. В первую очередь речь идёт о создании самого датасета ImageNet, что было непростой задачей, учитывая тот факт, что по размеру он многократно превосходил все созданные ранее датасеты, а также его многоуровневую систему аннотаций.

В современных популярных статьях по истории нейронных сетей, по всей видимости в силу особенностей самого формата, картина обычно выглядит следующим образом: жил-был Ян Лекун, который изобрёл свёрточные нейронные сети и в 1998 г. показал их эффективность на датасете MNIST. Спустя 12 лет как чёртик из табакерки или, будет правильнее сказать, как фея из сказки появляется Фей-Фей Ли из Стэнфорда, создаёт базу изображений ImageNet, а спустя ещё два года немного доработанная архитектура Лекуна в виде программы AlexNet, благодаря использованию при обучении GPU от Nvidia, рвёт в клочья все богомерзкие SVM’ы — и наступает эра глубокого обучения.

В целом такая картина, конечно, не очень сильно грешит против фактов, но в ней невооружённым глазом заметен некоторый изъян: неясно, чем был вызван двенадцатилетний разрыв. В конце концов, работа Розенблатта над перцептронами продолжалась всего 15 лет, что стало целой эпохой в истории коннекционизма. Казалось бы, ещё в 1990-е гг. работы Лекуна, Хинтона и их коллег показали перспективность нейросетевого подхода, почему же новой весне ИИ потребовалось ждать целых 14 лет? Давайте попробуем разобраться в том, что происходило в области распознавания изображений в это время, и тем самым заполнить пробел в существующей популярной картине истории мира глубокого обучения.

  1. From not working to neural networking: The artificial-intelligence boom is based on an old idea, but with a modern twist (2016) / The Economist // https://www.economist.com/special-report/2016/06/23/from-not-working-to-neural-networking
  2. Sánchez J., Perronnin F., Mensink T. (2010). Improved Fisher Vector for Large Scale Image Classification XRCE's participation for ILSVRC // http://image-net.org/challenges/LSVRC/2010/ILSVRC2010_XRCE.pdf
  3. Lin Y., Lv F., Zhu S., Yang M., Cour T., Yu K., Cao L., Li Z., Tsai M., Zhou X., Huang T., Zhang T. (2010). ImageNet classification: fast descriptor coding and large-scale SVM training // http://image-net.org/challenges/LSVRC/2010/ILSVRC2010_NEC-UIUC.pdf
  4. Perronnin F., Sánchez J. (2011). XRCE@ILSVRC2011: Compressed Fisher vectors for LSVR // http://image-net.org/challenges/LSVRC/2011/ilsvrc11.pdf
Loading comments...