Перейти к содержанию

6.2 Машина распознаёт образы

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Гляжу с обычным умиленьем

На ваши кроткие черты,

И сердце светлым вдохновеньем

Наполнил образ красоты.

Какой обмен несправедливый!

Вдруг получить издалека

Вам, юной, свежей и красивой,

Печальный образ старика!

Афанасий Фет. Л. И. Офросимовой при посылке портрета

Распознавание образов [pattern recognition] — это отрасль ИИ, которая занимается автоматическим обнаружением закономерностей в данных и решением задач классификации и регрессии найденных закономерностей.

Распознавание образов часто понимается как распознавание только изображений, но на самом деле это не так: дело в том, что слово «образ» в русском языке не совсем точно соответствует английскому pattern. У этого слова довольно много значений — «узор», «шаблон», «образец», «структура», но так уж вышло, что в отечественной научной традиции принято говорить именно о распознавании образов, а само направление называть теорией распознавания образов.

Данные, в которых имеются те или иные закономерности, могут иметь самую разную природу: это могут быть оцифрованные изображения, звуки, видео, тексты, сигналы различных датчиков (температуры, давления, перемещения и т. д.) — словом, что угодно, что может быть подано на вход машины. Одно лишь перечисление задач, относящихся к области распознавания образов, заняло бы наверняка не одну сотню страниц. Поэтому здесь мы рассмотрим лишь некоторые типичные задачи, по прогрессу в решении которых принято судить об успехах всей области. Хотя предположение о том, что прогресс в решении отдельных задач распознавания должен сопровождаться прогрессом в решении других задач, выглядит вполне разумным, однако на деле всё может оказаться не так просто. Мы знаем, например, что машины довольно быстро научились идеально играть в крестики-нолики, но безупречный автоматический игрок в шашки появился лишь спустя полвека. Возможность применения для распознавания образов тех или иных алгоритмов и моделей во многом зависит от характеристик данных, и прежде всего от их размерности. Одно дело отличить крестик от нолика на монохромной картинке размером 3 × 3 пикселя (здесь вполне можно обойтись набором составленных вручную правил), и совсем другое — распознать котика на цветной 10‑мегапиксельной фотографии. Важным достижением новой весны ИИ стал существенный прогресс в ряде задач, относящихся к реальному миру, то есть таких задач, которые приходится решать людям в ходе различных производственных процессов. При этом нередко системам искусственного интеллекта удавалось превзойти людей. Это особенно важно в силу того, что в итоге была открыта дорога к автоматизации решения многих задач, решаемых людьми в повседневной жизни.

Для оценки прогресса в решении подобных задач специалисты в области ИИ обычно создают публичные стандартизованные наборы данных, которые позволяют оценивать точность работы различных моделей, а также точность выполнения задач людьми. Мы уже упоминали MNIST — один из подобных наборов, содержащий множество пиксельных образов рукописных цифр. Задача распознавания цифр из этого набора стала тривиальной на границе тысячелетий, поэтому сегодня для оценки прогресса в области распознавания изображений принято использовать более сложные наборы данных. Сегодня, благодаря усилиям сообщества, разработчикам моделей распознавания образов доступны сотни, если не тысячи наборов данных, содержащих изображения, аудио- и видеозаписи, тексты, различные мультимодальные данные (например, наборы изображений, снабжённых текстовыми описаниями, и т. п.)[1], [2], [3] и так далее. Более того, регулярно проводятся соревнования по решению различных задач в области распознавания образов, в том числе онлайн — на таких сервисах, как Kaggle, Driven Data, CrowdANALYTIX и др. Причём благодаря появлению облачных платформ, предоставляющих доступ к высокопроизводительным тензорным процессорам (Google Colab, Amazon AWS или отечественный «Кристофари» от Сбербанка), участникам соревнований необязательно даже иметь в собственности дорогое оборудование для обучения моделей. Словом, по сравнению с 1990-ми гг. решительно изменились почти все элементы инфраструктуры, задействованные в сфере распознавания образов, и плоды этих изменений не заставили себя ждать.

  1. * Вообще говоря, термин модальность (от лат. modus — способ) пришёл в информатику из психологии, в которой понятия «модальность раздражителя» [stimulus modality] и «сенсорная модальность» [sensory modality] используются для того, чтобы указать на восприятие раздражителя определённой сенсорной системой: визуальной (зрительной), аудиальной (слуховой) и так далее. Однако использование этого термина в области информатики приобрело весьма вольный характер. Например, нередко говорят о «текстовой модальности» [text modality], но ведь у человека отсутствуют специальные сенсоры для восприятия текста — мы воспринимаем текст опосредованно, например через зрительную или слуховую систему. Фактически в данном случае термин «модальность» смешивается со способом представления данных [data representation]. Кроме того, очевидно, что машины вовсе не обязаны иметь тот же набор сенсорных систем, что и люди. Увы, связанная с этим путаница в наши дни приобрела уже всеобщий масштаб, и фарш уже вряд ли получится прокрутить в обратном направлении. Но, быть может, ещё не поздно при необходимости использовать для различения смешавшихся понятий составные термины, например «сенсорная модальность» и «модальность представления» [representation modality].
  2. Portes Q., Carvalho J. M., Pinquier J., Lerasle F. (2021). Multimodal Neural Network for Sentiment Analysis in Embedded Systems // https://www.scitepress.org/Papers/2021/102247/102247.pdf
  3. Baltrušaitis T., Ahuja C., Morency L.-P. (2018). Multimodal Machine Learning: A Survey and Taxonomy // https://arxiv.org/abs/1705.09406
Loading comments...