Перейти к содержанию

6.2.1.1 Фей-Фей Ли и ImageNet

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Обратимся для начала к личности Фей-Фей Ли и к истории ImageNet.

Фей-Фей Ли родилась в 1976 г. в Пекине, а выросла в городе Чэнду на юге Китая. Когда ей было 12 лет, её отец переехал в США, а через четыре года перевёз к себе жену и дочь. Ли окончила среднюю школу в Парсиппани (штат Нью-Джерси, США) в 1995 г. В том же году она поступила в Принстонский университет, который окончила с отличием в 1999 г., получив степень бакалавра искусств в области физики. Во время учёбы в Принстоне Ли на выходных подрабатывала в принадлежавшей её родителям химчистке.

В 2000 г. она поступила в аспирантуру в Caltech, где в 2005 г., работая на стыке нейробиологии и информатики, получила степень доктора философии в области электротехники[1]. Именно в Caltech Ли начала работу над своей первой базой данных изображений, предназначенной для отработки и тестирования методов распознавания образов и машинного зрения. Датасет, увидевший свет в 2003 г., получил название Caltech 101. Он пришёл на смену более простому датасету Caltech 4, в котором было только четыре класса изображений (самолёты, лица, мотоциклы и фон). Вместе с Фей-Фей Ли над созданием датасета трудились Марк Ранцато и Пьетро Перона, научный руководитель Ли. В базу данных вошло 9146 изображений в формате jpeg, распределённых на 101 категорию: чай, чемоданы, чебуреки, чебоксары, трилобиты, зонтики, мозги, дельфины, эму, лица, ножницы и так далее. Изображения имеют различный размер, тяготеющий к популярному разрешению 320 × 200[2][3].

В 2006-м на смену Caltech 101 пришла улучшенная версия датасета[4], получившая название Caltech 256. В ней содержалось 30 607 изображений и, как можно догадаться из названия, 256 различных классов. Она создавалась уже без участия Фей-Фей Ли, которая к тому моменту стала доцентом сразу двух факультетов: электротехники и вычислительной техники в Иллинойсском университете в Урбане-Шампейне и компьютерных наук в Принстонском университете.

На базе Caltech 4, Caltech 101 и Caltech 256 в 2000-е гг. было выпущено множество исследований, посвящённых задаче распознавания изображений, многие из которых были представлены на крупных ежегодных конференциях по компьютерному зрению, таких как CVPR (Conference on Computer Vision and Pattern Recognition, Конференция по компьютерному зрению и распознаванию образов), ICCV (International Conference on Computer Vision, Международная конференция по компьютерному зрению) и CAIP (International Conference on Computer Analysis of Images and Patterns, Международная конференция по компьютерному анализу изображений и образов)[5]. Беглый анализ этих публикаций показывает, что свёрточные нейронные сети в то время практически не были представлены в числе обучавшихся на датасетах Caltech моделях. Причина этого не столь уж загадочна, как может показаться на первый взгляд. Переход от анализа чёрно-белых изображений размером 28 × 28 точек (MNIST) к цветным изображениям размером 320 × 200 точек (Caltech 101) означал примерно 245-кратное увеличение числа входных параметров моделей. Если считать, что каждые два года благодаря прогрессу в области вычислительной техники мы можем создавать модели с удвоенным количеством входных параметров (темпы роста, аналогичные темпам роста в законе Мура), то для преодоления 80-кратного разрыва потребуется около 13 лет. Удивительно, насколько эта оценка близка к сроку, разделяющему публикацию Лекуна и появление AlexNet (2012).

Покинув Caltech, Фей-Фей Ли не утратила интереса к идее создания стандартизованных визуальных датасетов. В то время, когда большинство исследований в области распознавания изображений были сосредоточены на моделях и алгоритмах, Ли в первую очередь стремилась увеличить объём и качество данных. В поисках более правильных подходов к разметке данных Ли обратилась к опыту смежной отрасли, занимающейся автоматизированной обработкой естественного языка [Natural language processing]. Дело в том, что к тому моменту, когда появились первые системы для решения задач в этой области, человечество уже имело богатый опыт сбора и систематизации текстовой информации. Разного рода словари и энциклопедии появились задолго до первых машин, способных воспользоваться накопленной в них информацией. Неудивительно, что и первые электронные языковые базы данных появились уже на заре компьютерной эры.

Внимание Ли привлекла лексическая база данных английского языка WordNet, разработанная в Принстонском университете. Эта база, появившаяся в эпоху расцвета символьного подхода в ИИ, представляет собой электронный словарь-тезаурус[6], содержащий набор «семантических сетей» для английского языка: базовой словарной единицей WordNet является не отдельное слово, а целый синонимический ряд, так называемый «синсет» [synset], объединяющий слова со сходным значением в узел семантической сети. Работа над WordNet началась в 1985 г. под руководством профессора психологии Джорджа Миллера. Продолжательницей его дела стала Кристиана Феллбаум. Именно встреча Ли и Феллбаум в 2007 г. дала начало созданию базы данных ImageNet.

Каждое изображение в базе привязано к одному или нескольким узлам семантической сети WordNet (при этом сама сеть была несколько расширена путём добавления в неё 120 названий разных пород собак для демонстрации тонкой классификации) так, что наличие связи означало присутствие на изображении объекта соответствующего класса. При этом связь могла также содержать координаты ограничивающего прямоугольника для видимой на картинке части соответствующего объекта. Разметка данных происходила на платформе Amazon Mechanical Turk под чутким контролем группы исследователей из Принстона, работавших под началом Ли. В 2012 г. ImageNet был крупнейшим в мире пользователем платформы WordNet из академической среды.

Сегодня база данных WordNet доступна более чем на 200 языках. Попытки создать русскую версию WordNet предпринимались четырежды[7], [8], [9], [10], [11], но по результатам на сентябрь 2023 г. ни одна из них не была доведена до конца. Впрочем, последняя версия русскоязычной базы WordNet почти догнала по объёму свой англоязычный прототип: 133 745 уникальных слов и словосочетаний в русской версии против 155 327 в английской.

Первую версию датасета ImageNet представили публике в 2009 г. на очередной конференции CVPR во Флориде.

В том же 2009 году Ли Фей-Фей перебралась в Стэнфорд, и в 2010 г. на базе датасета ImageNet был проведён конкурс визуального распознавания ILSVRC-2010 (ImageNet 2010), ставший первым из конкурсов ILSVRC. В его оргкомитете было представлено три университета: Колумбийский университет в лице Алекса Берга, Принстон в лице Джии Денга и Стэнфорд в лице Фей-Фей Ли.

Справедливости ради стоит отметить, что соревнования ILSVRC не были первыми в истории публичными соревнованиями по распознаванию изображений. В 2005 г. стартовал проект PASCAL Visual Object Classes Challenge (Соревнования по классам визуальных объектов PASCAL), более известный под своим коротким названием — PASCAL VOC. Его основателем был Марк Эверингам, работавший в группе Эндрю Зиссермана в отделении инженерных наук Оксфордского университета[12].

Слово PASCAL в названии проекта отражает тот факт, что он был создан при поддержке программы Еврокомиссии под названием PASCAL (Pattern Analysis, Statistical Modelling and Computational Learning, Анализ образов, статистическое моделирование и вычислительное обучение).

В 2005 г. датасет PASCAL VOC включал в себя 1578 изображений, содержащих 2209 аннотированных объектов, относящихся к одному из четырёх классов: велосипеды, автомобили, мотоциклы и люди. На следующий год число классов возросло до 10, а с 2007 г. — до 20. Количество размеченных изображений в PASCAL VOC постепенно росло, и в 2010 г. датасет содержал 10 103 изображения с 23 374 объектами. Для сравнения: датасет, использованный на соревнованиях ILSVRC-2010, содержал 1,4 млн картинок, причём этот набор данных был лишь небольшим подмножеством ImageNet, содержавшим на тот момент 10 млн размеченных изображений. Таким образом, ILSVRC своим появлением повысил планку сразу как минимум на два порядка.

К сожалению, 2012-й стал последним в истории PASCAL VOC из-за преждевременной смерти его основателя Марка Эверингама.

Влияние PASCAL VOC на ILSVRC трудно переоценить. В самом заголовке страницы ILSVRC-2010 можно прочесть: «Проводится как „дегустационный“ конкурс в сочетании с конкурсом PASCAL Visual Object Classes Challenge 2010 (VOC2010)» [Held as a “taster competition“ in conjunction with PASCAL Visual Object Classes Challenge 2010 (VOC2010)].

Условия ILSVRC в разные годы подразумевали соревнования в решении немного различающихся наборов задач: классификация изображений [classification], классификация изображений с локализацией объектов [classification with localization] (с 2011 г.), утончённая классификация [fine-grained classification] (2012 г.), а также обнаружение объектов [detection] (с 2013 г.). В то же время во все годы проводились соревнования по классификации, что позволяет нам отслеживать последовательный прогресс в решении этой задачи.

Основной метрикой, используемой в рамках ILSVRC для оценки точности классификации, стала «ошибка топ-5» [top-5 error]. Принцип её расчёта довольно прост. В датасете ILSVRC, используемом для соревнований по классификации, каждому изображению сопоставлена единственная «истинная» метка класса, при этом число классов сокращено до 1000. Модель, «взглянув» на изображение, должна предоставить пять наиболее вероятных гипотез по поводу «истинной» метки класса. Если среди этих гипотез присутствует «истинная» метка, то ответ модели считается правильным. Величина ошибки равна доле неправильных ответов модели на тестовой выборке. Организаторы ILSVRC использовали такую метрику для того, чтобы не штрафовать модель за нахождение на изображении каких-либо второстепенных объектов. Если вместо пяти гипотез использовать десять, то такая метрика будет называться «ошибка топ-10» [top-10 error], если одну — то «ошибка топ-1» [top-1 error] и так далее.

  1. Jessi H. (2018). Fei-Fei Li's Quest To Make Ai Better For Humanity / Wired, 11.13.2018 // https://www.wired.com/story/fei-fei-li-artificial-intelligence-humanity/
  2. * На самом деле в официальном архиве датасета, выложенном на сайте Caltech, наличествуют 102 папки вместо 101. По всей видимости, «безбилетником» стала папка BACKGROUND_Google, содержащая довольно странный набор изображений, начиная от карты путешествий генерала Ферье по Персии и Афганистану размером 3481 × 2955 пикселей и заканчивая красноречивой карикатурой, на которой изображён человек со спущенными штанами, демонстрирующий зрителям свой голый зад; сей шедевр сопровождается подписью «C:\». Вероятно, в набор просто попала папка с персональной свалкой картинок кого-то из создателей датасета. Желаю удачи цифровым археологам будущего в её исследовании.
  3. Fei-Fei L., Fergus R., Perona P. The Caltech 101 // http://www.vision.caltech.edu/Image_Datasets/Caltech101/
  4. Griffin G., Holub A. D., Perona P. The Caltech 256 // http://www.vision.caltech.edu/Image_Datasets/Caltech256/
  5. Ponce J., Berg T. L., Everingham M., Forsyth D. A., Hebert M., Lazebnik S., Marszalek M., Schmid C., Russell B. C., Torralba A., Williams C. K. I., Zhang J., Zisserman A. (2006). Dataset Issues in Object Recognition / Ponce J., Hebert M., Schmid C., Zisserman A. (2006). Toward Category-Level Object Recognition. Lecture Notes in Computer Science, Vol. 4170. Springer, Berlin, Heidelberg // https://doi.org/10.1007/11957959_2
  6. * Словарь, в котором указаны семантические отношения (синонимы, антонимы и т. д.) между лексическими единицами.
  7. RussNet: WordNet for Russian (2005) // http://project.phil.spbu.ru/RussNet/index.shtml
  8. Braslavski P., Ustalov D., Mukhin M., Kiselev Y. (2016). YARN: Spinning-in-Progress / Proceedings of the Eight Global Wordnet Conference, — Bucharest, Romania, 2016 — pp. 58—65 // https://russianword.net/
  9. Липатов А., Гончарук А., Гельфенбейн И., Шило В., Лехельт В. Русский Wordnet // http://wordnet.ru/
  10. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V. (2016). Creating Russian WordNet by Conversion. / Proceedings of Conference on Computational linguistics and Intellectual technologies Dialog-2016, pp. 405-415
  11. Лашевич Г. (2021). Тезаурус русского языка RuWordNet // https://www.ruwordnet.ru
  12. Zisserman A., Winn J., Fitzgibbon A., Gool L. V., Sivic J., Williams C., Hogg D. (2012). In Memoriam: Mark Everingham / IEEE Transactions on pattern analysis and machine intelligence, Vol. 34, No. 11, November 2012 // https://doi.org/10.1109/TPAMI.2012.204
Loading comments...