6.5.3 Представление эмоциональной информации
В качестве примера первого подхода можно привести модели, предназначенные для определения эмоциональной окраски речи человека. Важно отметить, что в данном случае мы говорим именно об эмоциональной окраске речи, а не о том, какие именно эмоции испытывает говорящий. Обычно это одно и то же, однако люди иногда изображают те или иные эмоции, а особенно хорошо это умеют делать профессиональные артисты.
Для того чтобы обучить модель распознавать эмоциональную окраску речи, необходимо подготовить обучающую выборку, в которой каждому элементу речи (обычно фразе или слову) будет сопоставлена метка, определяющая эмоциональную окраску данного элемента. Здесь мы сталкиваемся с интересными проблемами. Для начала необходимо выбрать подходящее представление эмоций. Например, мы можем перечислить различные эмоции, составив из них своеобразный «эмоциональный алфавит», и затем рассматривать нашу задачу как задачу классификации. В каких-то областях применения нас может устроить наличие всего двух классов: «негативная эмоциональная окраска» и «всё остальное». В других нам может понадобиться куда более обширный список. Системно подошли к вопросу авторы стандарта[1], [2] Emotion Markup Language (EmotionML) 1.0. Они включили в стандарт несколько «эмоциональных словарей», предложенных в работах учёных-психологов. К их числу относится, например, так называемая «большая шестёрка» [Big six] эмоций, предложенная в 1972 г. в работе[3] американского психолога Пола Экмана. «Большую шестёрку», как нетрудно догадаться, составляют шесть эмоций: отвращение [disgust], печаль [sadness], гнев [anger], страх [fear], счастье [happiness] и удивление [surprise]. Это наиболее простой эмоциональный словарь, определённый в EmotionML 1.0.
Другой эмоциональный словарь, предусмотренный стандартом EmotionML 1.0, основан на концепции соответствия эмоций тенденциям действия [action tendencies], разработанной в трудах голландского психолога Нико Фрейды[4]. Этот словарь включает в себя 12 эмоций: безразличие [indifference], высокомерие [arrogance], гнев [anger], желание [desire], интерес [interest], наслаждение [enjoyment], отвращение [disgust], покорность [resignation], смирение [humility], страх [fear], удивление [surprise] и шок [shock].
Ещё одной альтернативой является разработанный в 1999 г. «Словарь повседневных эмоций» (Everyday emotion vocabulary), включающий в себя уже 17 эмоциональных классов: восторженный [excited], взволнованный [worried], довольный [pleased], заинтересованный [interested], испуганный [afraid], любящий [loving], скучающий [bored], нежный [affectionate], обрадованный [amused], печальный [sad], разочарованный [disappointed], расслабленный [relaxed], сердитый [angry], согласный [content], счастливый [happy], уверенный [confident], удовлетворённый [satisfied]. В основу этого словаря было положено одно из ранних исследований по сентимент-анализу[5] за авторством Родди Коуи и его коллег из Университета Квинс в Белфасте (Queen’s University Belfast, QUB) и Кингс-колледжа Лондона (King’s College London, KCL). Но если вы думаете, что это самый большой эмоциональный словарь в EmotionML, то глубоко заблуждаетесь. Словарь OCC, названный так по первым буквам фамилий его создателей — американских психологов Эндрю Ортони и Джеральда Клоура, а также упомянутого ранее психолога-когнитивиста Аллана Коллинза, включает целых 22 эмоции, но и это не предел[6]. Словарь Фонтейна, Шерера, Роша и Эллсуорт (в EmotionML он назван по первым буквам фамилий авторов — FRSE) доводит число различаемых эмоций до 24.
Наивным было бы считать, что авторы этих эмоциональных словарей просто соревновались друг с другом в составлении бессистемных списков эмоций. В основе больших эмоциональных словарей лежит обычно анализ лингвистических данных (статистики использования слов, применяемых для передачи эмоциональной информации в различных языках). При этом сами словари нередко лишь побочный продукт исследований, цель которых — построение «эмоционального пространства», то есть такого представления, в котором каждая эмоция будет разделена на несколько независимых друг от друга компонент. В этом можно убедиться, ознакомившись с лежащими в основе этих систем исследованиями.
Одна из распространённых двумерных моделей была введена в 1980 г. психологом Джеймсом Расселом в статье «Круговая модель эмоции» (A Circumplex Model of Affect)[7]. В данной модели эмоции раскладывались по двум шкалам: «удовольствие/неудовольствие» [pleasure-displeasure], характеризующей позитивный или негативный характер эмоции, и «возбуждение/сон» [arousal-sleep], характеризующей активность или пассивность психологического состояния. В дальнейшем первая шкала получила название «шкала валентности» [valence], вторая — «шкала возбуждения» [arousal], а сама модель — «модель валентности/возбуждения» [valence-arousal model].
Основополагающая работа авторов FRSE «Мир эмоций не является двумерным» (The World of Emotions is not Two-Dimensional)[8] представляет собой критику подобных двумерных моделей и вводит новую модель, получившую потом название GRID [сетка, решётка] (это название не является аббревиатурой, а лишь отсылает к тому факту, что один из авторов модели, Клаус Шерер, разместил метки эмоциональных классов в ячейках семантической сетки). Источником для создания модели GRID стала веб-анкета, включавшая в себя 24 эмоции и 144 характеристики эмоции. Список эмоций был составлен на основании статистического анализа как текстов научных исследований, так и повседневной речи. В качестве последней выступал корпус, составленный из описаний эмоциональных моментов прошедшего дня, выполненных в произвольной форме. Этот корпус стал результатом масштабного исследования, проведённого в швейцарских домохозяйствах в начале 2000-х гг.
144 характеристики эмоции были разделены на шесть разных по размеру групп: 31 характеристика была отнесена к оценке эмоции («доставляет ли дискомфорт испытывающему её человеку», «[испытывается] ли в момент опасности» и т. п.), 18 — к телесным ощущениям («мышцы расслаблены», «дыхание замедленно» и т. п.), 9 — к выражению лица («глаза широко открыты», «присутствует улыбка» и т. п.), 12 — к голосу («речь замедленна», «голос дрожит» и т. п.), 5 — к жестам («движения тела становятся резкими», «перемещается по направлению к кому-либо или чему-либо» и т. п.), 40 — к склонности к тем или иным действиям («хочет исчезнуть или скрыться от других», «хочет петь и танцевать» и т. п.), 22 — к субъективно испытываемым переживаниям («ощущает слабость», «ощущает нервозность» и т. п.) и 4 — к управлению эмоциями («демонстрирует эмоцию другим в большей мере, чем испытывает её», «скрывает эмоцию от других при помощи улыбки» и т. п.). Три «прочие» характеристики эмоции (не входящие ни в одну из вышеупомянутых категорий) — это тенденция к изменению в долгосрочной перспективе, социальное одобрение и частота возникновения в рамках культурной группы.
Список характеристик был построен на базе анализа более ранних работ в этой области, основанных на самых разнообразных подходах к моделированию эмоций. Веб-анкета, изначально составленная на английском языке, была переведена также на французский и нидерландский.
В ходе исследования каждого участника просили оценить четыре случайно выбранные эмоции (из 24 возможных в данной модели) с точки зрения 144 возможных характеристик на основе 9-балльной шкалы (от «маловероятно» до «очень вероятно»). Участники оценивали вероятность того, что каждая из 144 характеристик будет наблюдаться, когда человек из той же культурной группы использует соответствующее название эмоции для описания эмоционального опыта.
В исследовании участвовали студенты из Бельгии, Великобритании и Швейцарии (всего 531 человек), при этом каждый участник заполнял анкету на родном языке.
Собранные данные учёные проанализировали при помощи метода главных компонент и пришли к выводу, что наилучшим решением является выделение четырёх компонент, объясняющих в сумме около 75,4% дисперсии оценок. Выделенные компоненты получили названия: «оценка/приятность» [evaluation-pleasantness] (на её долю приходится 35,3% объяснённой дисперсии), «потенция/контроль» [potency-control] (22,8%), «активация/возбуждение» [activation-arousal] (11,4%) и «непредсказуемость» [unpredictability] (6,0%). При этом не было обнаружено никаких существенных различий для трёх групп испытуемых (бельгийцев, швейцарцев и англичан).
Первое измерение можно интерпретировать как оценку приятности эмоции, по этой шкале приятные эмоции (удовольствие, радость) противостоят неприятным (ненависть, гнев). По сути, это не что иное, как описанная ранее валентность эмоции.
Второе измерение можно рассматривать как оценку уровня контроля со стороны субъекта. По этой шкале эмоции, связанные с чувством бессилия, подчинения и утраты контроля (печаль, стыд, отчаяние), противопоставлены эмоциям, связанным с мобилизацией сил и ощущением наличия контроля (гордость, интерес, гнев). Эта шкала соответствует так называемой стенической (от др.-греч. σθένος — сила) шкале эмоций, описанной в классических работах, посвящённых человеческим эмоциям.
В пределах третьего измерения наблюдается противостояние эмоций, связанных с высоким эмоциональным возбуждением и готовностью действовать (гнев, тревога), эмоциям, связанным с заторможенностью (разочарование, удовлетворённость). Эту шкалу можно считать практически полным аналогом традиционной шкалы возбуждения.
И наконец, четвёртое измерение — непредсказуемость — переносит на один край шкалы удивление, затем, отделённые заметным промежутком, почти в центре шкалы оказываются отвращение и страх, а на противоположном полюсе в виде плотной группы сосредоточены все остальные эмоции, причём ближе всего к концу шкалы оказывается чувство вины.
Исследование Шерера и его коллег стало важным этапом в изучении семантики эмоциональных терминов. В частности, его результаты были использованы для совершенствования популярного инструмента для эмоциональной самооценки (а также, например, для оценки «эмоций» роботов[9]), так называемого Женевского колеса эмоций (Geneva Emotion Wheel, GEW)[10], [11].
Возможность построения эмоционального семантического континуума позволяет подходить к задаче определения эмоциональной окраски речи или текста не как к задаче классификации, а как к задаче регрессии. В таком случае от модели потребуется не предсказание метки конкретного эмоционального класса (в соответствии с выбранным эмоциональным словарём), а оценка величины каждой из выбранных компонент эмоции. Для этой цели в стандарте EmotionML 1.0 помимо словарей введены ещё и системы измерений эмоций. Кроме упомянутой нами системы FRSE (GRID) с четырьмя шкалами, стандартом предусмотрена возможность использования пространства PAD (Pleasure, Arousal, and Dominance, Удовольствие, возбуждение и доминирование), основанного на трёх соответствующих шкалах, разработанного[12] американским профессором Альбертом Меграбяном, а также плоской шкалы интенсивности [intensity] эмоции.
Помимо способов представления эмоций, стандарт EmotionML 1.0 содержит в себе также словари характеристик эмоций и словарь тенденций действий (из работ Нико Фрейды)[13], [14]. Наличие стандарта представления эмоциональной информации весьма полезно для сферы эмоциональных вычислений. Оно позволяет разработчикам не изобретать каждый раз велосипед и опираться на материал, наработанный в результате многолетних исследований в области психологии.
Итак, мы более-менее разобрались с выбором способа представления эмоциональной информации. Допустим, мы решили присвоить каждой фразе из обучающей выборки метку класса, взяв за основу «большую шестёрку» эмоций. Теперь необходимо собрать данные и выполнить разметку, для чего можно использовать какую-либо краудсорсинговую платформу. Иногда вам может подойти какой-либо из публичных датасетов, однако наилучший результат обычно получается, используя данные из того же канала и того же бизнес-процесса, в котором планируется применение модели распознавания эмоций. Однако особенность процесса может сыграть с разработчиком злую шутку. Например, если вы планируете обучать вашу модель на данных из колл-центра, занимающегося взысканием просроченной задолженности, то вы должны быть готовы к тому, что абоненты будут редко радоваться, поэтому, чтобы получить более-менее приличный по объёму датасет со сбалансированной численностью классов, вам придётся просеять огромное количество информации. Кроме того, подавляющее количество фраз практически в любом голосовом канале имеет нейтральную окраску. В принципе, можно объединить в один несколько датасетов (при условии сбалансированности численности классов), использовав публичные массивы или разметив какой-либо эмоционально богатый источник записей (например, ролики с YouTube), однако часто оказывается, что при использовании публичных датасетов для обучения точность на своих данных оказывается ниже декларированной. Поэтому судить о качестве модели можно только на основе данных из источников, с которыми модель будет работать в дальнейшем. Ещё одной альтернативой является создание наборов эмоциональных записей усилиями участников краудсорсинговой платформы, но практика показывает, что людям редко удаётся правдоподобно изображать эмоции на заказ, поэтому без дополнительной фильтрации ценность собранных таким образом записей весьма сомнительна.
Ещё одной проблемой является собственно разметка фраз, поскольку люди сами не всегда сходятся в оценках. Кто-то слышит в некоторой фразе нейтральную окраску, а кто-то в той же фразе подозревает скрытую печаль. Если вы используете при оценке систему, основанную на шкалах, то значения оценок по каждой шкале можно подвергнуть усреднению. При использовании словаря придётся либо доверять большинству оценщиков, либо отбрасывать фразы, получившие неоднозначные оценки.
При оценке эмоциональной окраски речи люди неизбежно будут ориентироваться как на текст сказанного, так и на те или иные звуковые признаки. Если вы используете видеозаписи человеческой речи, то к числу признаков добавятся ещё и признаки из видеоканала: выражение лица говорящего, а возможно, и движения его тела. В таком случае вам понадобится модель, которая сможет получать на вход мультимодальную информацию. При этом важно учитывать, что некоторые компоненты этой информации будут довольно универсальными для разных культур (например, то, каким образом эмоции, испытываемые человеком, влияют на его голос), а некоторые будут весьма специфичны для конкретной культуры (например, тот же язык — не факт, что нейронная сеть, которая обучалась на эмоциях людей — носителей одного языка, будет применима для распознавания эмоций носителей другого языка). Поэтому набор используемых модальностей будет влиять на возможность использования публичных массивов данных.
- ↑ Baggia P., Pelachaud C., Peter C., Zovato E., Burkhardt F., Schröder M. (2014). Emotion Markup Language (EmotionML) 1.0. W3C Recommendation 22 May 2014. Copyright © 2014 W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotionml/
- ↑ Ashimura K., Baggia P., Oltramari A., Peter C., Zovato E., Burkhardt F., Schröder M., Pelachaud C. (2014). Vocabularies for EmotionML. W3C Working Group Note 1 April 2014. W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotion-voc/
- ↑ Ekman P. (1972). Universals and Cultural Differences in Facial Expressions of Emotion / Cole J. (1972). Nebraska Symposium on Motivation. University of Nebraska Press, Vol. 19, pp. 207—282 // https://doi.org/10.1037/0022-3514.53.4.712
- ↑ Frijda N. H. (1986). The Emotions. Cambridge, UK: Cambridge University Press // https://books.google.ru/books?id=QkNuuVf-pBMC
- ↑ Cowie R., Douglas-Cowie E., Appolloni B., Taylor J., Romano A., Fellenz W. (1999). What a neural net needs to know about emotion words / Mastorakis N. (1999). Computational Intelligence and Applications. World Scientific & Engineering Society Press. Athens, Greece, pp. 109—114 // http://www.image.ece.ntua.gr/projects/physta/conferences/531.pdf
- ↑ Ortony A., Clore G. L., Collins A. (1988). The Cognitive Structure of Emotion. Cambridge, UK: Cambridge University Press // https://books.google.ru/books?id=Sp8FngEACAAJ
- ↑ Russell J. A. (1980). A Circumplex Model of Affect / Journal of Personality and Social Psychology, Vol. 39, No. 6, pp. 1161—1178 // https://doi.org/10.1037%2Fh0077714
- ↑ Fontaine J. R. J., Scherer K. R., Roesch E. B., Ellsworth P. C. (2007). The World of Emotions is not Two-Dimensional / Psychological Science, Vol. 18 (12), pp. 1050—1057 // https://doi.org/10.1111/j.1467-9280.2007.02024.x
- ↑ Mcginn C., Kelly K. (2018). Using the Geneva Emotion Wheel to Classify the Expression of Emotion on Robots / Companion of the 2018 ACM/IEEE International Conference // https://doi.org/10.1145/3173386.3177058
- ↑ Scherer K. R., Shuman V., Fontaine J. J. R., Soriano C. (2013). The GRID meets the Wheel: Assessing emotional feeling via self-report / Fontaine J. J. R., Scherer K. R., Soriano C. (2013). Components of emotional meaning: a sourcebook. Series in affective science. Oxford University Press // https://doi.org/10.13140/RG.2.1.2694.6406
- ↑ Scherer K. R. (2005). What are emotions? And how can they be measured? / Social Science Information, Vol. 44 (4), pp. 695—729 // https://doi.org/10.1177/0539018405058216
- ↑ Mehrabian A. (1996). Pleasure-arousal-dominance: A general framework for describing and measuring individual differences in Temperament / Current Psychology, Vol. 14 (4), pp. 261—292 // https://doi.org/10.1007/BF02686918
- ↑ Baggia P., Pelachaud C., Peter C., Zovato E., Burkhardt F., Schröder M. (2014). Emotion Markup Language (EmotionML) 1.0. W3C Recommendation 22 May 2014. Copyright © 2014 W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotionml/
- ↑ Ashimura K., Baggia P., Oltramari A., Peter C., Zovato E., Burkhardt F., Schröder M., Pelachaud C. (2014). Vocabularies for EmotionML. W3C Working Group Note 1 April 2014. W3C® (MIT, ERCIM, Keio, Beihang) // https://www.w3.org/TR/emotion-voc/