Перейти к содержанию

6.2.1.3 Предшественники AlexNet

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Надо заметить, что AlexNet не была первой свёрточной сетью, для ускорения обучения которой использовались GPU. Более того, победа AlexNet на ILSVRC-2012 не была первой победой такой сети на соревнованиях по распознаванию изображений.

Немного расскажем о предшественниках сети AlexNet и их результатах.

Ещё в 2006 г. Кумар Челлапилла, Сидд Пьюри и Патрис Симар добились примерно четырёхкратного ускорения обучения сети по сравнению с CPU при помощи видеокарты Nvidia GeForce 7800 Ultra. Правда, применение для CPU библиотеки BLAS (basic linear algebra subroutines, базовые подпрограммы линейной алгебры), содержащей оптимизированные на низком уровне процедуры для выполнения операций линейной алгебры, позволяло достичь примерно троекратного прироста скорости и на CPU.

Эксперименты производились на датасетах MNIST и Latin. Последний содержал изображения 94 символов (заглавные и строчные буквы латинского алфавита, цифры, скобки, знаки препинания и арифметических операций, а также некоторые используемые в англоязычных текстах символы). В ходе экспериментов использовались различные размеры изображений, подаваемых на вход сети: 29 × 29, 37 × 37, 61 × 61[1].

В 2009 г. свет увидела работа немецких учёных Фабиана Нассе, Гернота Финка (оба из Технического университета Дортмунда) и Кристиана Турау (из Фраунгоферовского института интеллектуального анализа и информационных систем, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme, Fraunhofer IAIS) под названием «Определение лиц при помощи свёрточных нейронных сетей на базе GPU» (Face Detection Using GPU-Based Convolutional Neural Networks). В этой работе авторы использовали приближение гиперболического тангенса при помощи рядов Тейлора и в итоге, применив видеокарту Nvidia GeForce 8800 GT, смогли достичь ускорения обучения по сравнению с CPU в 11–13 раз. Эксперименты были поставлены на собственном датасете, содержавшем 12 000 изображений (на половине из них присутствовали лица). На вход сети подавались изображения размером 32 × 32 пикселя[2].

Но наибольший успех до команды SuperVision показали Дэн Чирешан со своими коллегами из уже знакомой нам группы Юргена Шмидхубера в лаборатории искусственного интеллекта швейцарского института IDSIA, которые смогли к 2011 г. достичь 60-кратного выигрыша в скорости по сравнению с CPU. С мая по сентябрь 2012 г. их модель одержала победу как минимум в четырёх конкурсах по распознаванию изображений. Кроме того, Чирешану и его коллегам удалось значительно улучшить описанные на тот момент в научной прессе рекордные результаты в точности распознавания для нескольких датасетов изображений. Именно в 2011 г. на соревнованиях по распознаванию знаков дорожного движения, проводившихся в рамках ежегодной Международной объединённой конференции по нейронным сетям (International Joint Conference on Neural Networks), модель Чирешана и его коллег не только стала победителем, но и продемонстрировала сверхчеловеческую точность распознавания (ошибка в 0,56% против 1,16% в среднем для людей). Их модель представляла собой ансамбль из 25 свёрточных сетей, каждая из которых имела два свёрточных слоя с максимизирующим пулингом, а также два полносвязных слоя[3].

При обучении модели Чирешан и его коллеги осуществляли аугментацию обучающей выборки, используя небольшие изменения масштаба, повороты изображений и различные типы их нормализации (аналогично участникам команды SuperVision на ILSVRC-2012). Для обучения применялись четыре видеокарты Nvidia GTX 580.

Использованная на соревнованиях обучающая выборка содержала 39 209 изображений, тестовая — 12 630. Все изображения были поделены на 43 непересекающихся класса (соответствующие каждому из знаков дорожного движения). Размер картинок варьировался от 15 × 15 до 250 × 250 пикселей, причём картинки не всегда были квадратными и не всегда дорожный знак находился в центре изображения. Поэтому для подачи изображений на вход сети Чирешан и его коллеги привели все картинки к размеру 48 × 48 пикселей.

Использованная архитектура имела приблизительно 1,5 млн параметров, половина которых приходилась на два последних полносвязных слоя. Обучение всего ансамбля сетей на четырёх графических картах продолжалось 37 часов[4], [5].

  1. Chellapilla K., Puri S., Simard P. (2006). High performance convolutional neural networks for document processing / International Workshop on Frontiers in Handwriting Recognition, 2006 // https://hal.inria.fr/inria-00112631
  2. Nasse F., Thurau C., Fink G. A. (2009). Face Detection Using GPU-Based Convolutional Neural Networks / International Conference on Computer Analysis of Images and Patterns, CAIP 2009 // https://doi.org/10.1007/978-3-642-03767-2_10
  3. * Под ансамблем в машинном обучении понимают объединение нескольких моделей для решения одной задачи, позволяющее достичь лучшего результата, чем при использовании каждой модели по отдельности; для получения результирующего прогноза ансамбля результаты входящих в него моделей могут усредняться либо комбинироваться каким-то более сложным образом.
  4. Cireșan D., Meier U., Masci J., Schmidhuber J. (2012). Multi-Column Deep Neural Network for Traffic Sign Classification // http://people.idsia.ch/~juergen/nn2012traffic.pdf
  5. Schmidhuber J. 2011: First Superhuman Visual Pattern Recognition. IJCNN 2011 competition in Silicon Valley: twice better than humans, three times better than the closest artificial competitor, six times better than the best non-neural method // http://people.idsia.ch/~juergen/superhumanpatternrecognition.html
Loading comments...