Перейти к содержанию

6.5.4 Наборы данных для анализа эмоций

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Уже в начале 2000-х гг. исследователям было доступно множество наборов данных эмоциональной речи. Например, обзор[1], выполненный в 2003 г. Димитриосом Верверидисом и Константином Котропулосом, включает в себя 32 базы данных эмоциональной речи, из них 11 содержат английскую речь, 7 — немецкую, 3 — японскую, 3 — испанскую, 2 — нидерландскую, и ещё семь языков (включая русский) встречаются лишь единожды. Для разметки этих баз использовались различные эмоциональные словари. Наиболее представленными в датасетах эмоциями оказались: гнев [anger], печаль [sadness], счастье [happiness], страх [fear], отвращение [disgust], удивление [surprise], скука [boredom] и радость [joy]. Некоторые из изученных Верверидисом и Котропулосом массивы, помимо аудиозаписей, включают в себя видео и записи движений гортани, а один — информацию о частоте биения сердца, электромиограмму (запись электрических сигналов, полученных в результате регистрации сокращений мышц) мышцы, сморщивающей бровь (Musculus corrugator supercilii), а также сведения об изменении гальванического сопротивления кожи (как индикатора потоотделения). Авторы ещё одного датасета (правда, с единственным испытуемым) включили в него электроэнцефалограмму.

Несмотря на такое разнообразие данных, чтение сводной таблицы, приведённой в исследовании, оставляет противоречивые ощущения. Лишь восемь датасетов содержат в себе натуральную эмоциональную речь, остальные основаны на образцах речи, в которых люди лишь симулировали различную эмоциональную окраску речи. Если брать только натуральную речь, то самый большой (по количеству представленных в нём людей) датасет содержит записи 780 человек, однако всё это — записи голосов детей. Если же брать «взрослые» датасеты, то этот показатель сразу же сокращается до 58 человек для немецкого языка и 40 для английского. Даже если брать в расчёт наборы данных с симуляцией эмоциональной окраски речи, то максимальное число людей, речь которых положена в основу датасета, составляет лишь 125. Можно ли всерьёз рассчитывать, что такого небольшого объёма данных достаточно для обучения эффективной классифицирующей модели на основе нейронных сетей?

Впрочем, обзор, который можно встретить в книге «Обработка эмоций в человеко-компьютерных диалогах» (Handling Emotions in Human-Computer Dialogues)[2], увидевшей свет в 2009 г., рисует чуть более радужную картину. В него включено больше сотни датасетов (в том числе некоторые, пропущенные в обзоре Верверидиса и Котропулоса). Однако и здесь приведено лишь несколько наборов данных, в которых число различных голосов и число примеров на каждую эмоцию превышало бы сотню.

Даже в 2010-е гг., несмотря на аппетит в отношении данных, испытываемый создателями глубоких нейросетевых моделей, ситуация радикально не поменялась. Ничего подобного ImageNet или LibriSpeech для эмоциональной речи в публичном доступе так и не появилось. Вот некоторые наиболее популярные на сегодняшний день у разработчиков публичные датасеты эмоциональной речи.

1. RAVDESS (Ryerson Audio-Visual Database of Emotional Speech and Song, Аудиовизуальная база данных эмоциональной речи и пения [Университета] Райерсона)[3].

База данных состоит из записей 24 профессиональных актёров (12 мужчин и 12 женщин), озвучивающих две фразы (Kids are talking by the door [Дети разговаривают у двери], Dogs are sitting by the door [Собаки сидят у двери]) на английском языке с североамериканским акцентом в двух вариантах: речь и пение, по два раза каждый вариант. В качестве эмоционального словаря разметки использована «большая шестёрка» эмоций (раздражение, отвращение, страх, счастье, печаль и удивление), к которой было добавлено спокойствие [calm] (в подмножестве, основанном на пении, эмоции удивления и отвращения отсутствуют). Каждая фраза представлена в датасете с двумя уровнями эмоциональной интенсивности для каждой из эмоций и однократно с нейтральной окраской. Каждая запись присутствует в датасете в трёх модальностях (только видео, только звук, звук вместе с видео). Для каждой записи из итогового набора объёмом 7356 записей была десять раз произведена оценка эмоциональной валидности, интенсивности и натуральности, для чего было привлечено 247 оценщиков. Благодаря столь тщательной проверке RAVDESS считается одним из наиболее качественных датасетов эмоциональной речи.

Что же с ним не так?

Во-первых, лексически он крайне беден, в нём представлено всего восемь разных слов. Конечно, тот факт, что разные актёры читают и поют одни и те же фразы с разной эмоциональной окраской, делает текст лексически сбалансированным, но достаточно ли в нём разнообразия, чтобы модель, обученная на нём, хорошо справлялась с совершенно другими словами и фразами? Авторы датасета сообщают о 7356 записях, однако получается, что на одного актёра приходится 7356 : 24 = 306,5 записи. Сразу вспоминается детский стишок, в котором «и вышло у меня в ответе: два землекопа и две трети». Каждый актёр сделал 60 записей речи (2 фразы × 7 эмоций × 2 уровня интенсивности × 2 повторения + 2 нейтрально произнесённые фразы × 2 повторения) и 44 записи пения (2 фразы × 5 эмоций × 2 уровня интенсивности × 2 повторения + 2 нейтрально спетые фразы × 2 повторения). Таким образом, с учётом трёх модальностей общее число записей должно было бы быть 24 × (60 + 44) × 3 = = 7488. Но авторы датасета потеряли записи пения одной из женщин (132 файла) по техническим причинам, ввиду чего идеальный баланс в наборе данных был утрачен.

Во-вторых, вопрос вызывает тот факт, что авторы датасета сделали «спокойствие» отдельной эмоциональной меткой. Я не очень понимаю, чем две степени спокойствия отличаются от нейтральной окраски. Авторы объясняют это тем, что нейтральная окраска нередко воспринимается оценщиками как имеющая небольшую отрицательную валентность (видимо, имеется в виду некая затаённая грусть). «Спокойствие» должно быть своеобразной компенсацией этого эффекта, поскольку по замыслу должно обладать положительной валентностью. Но я боюсь, что подобного рода слабые эффекты трудно моделировать, тем более при столь скромных объёмах данных.

2. SAVEE (Surrey Audio-Visual Expressed Emotion, Аудиовизуально выраженные эмоции [Университета] Суррея)[4], [5], [6], [7].

Состоит из записей четырёх актёров мужского пола, говорящих на родном для них британском английском языке. В качестве эмоционального словаря снова выбрана «большая шестёрка», при этом фразы с нейтральной эмоциональной окраской записывались дважды. Сами фразы были выбраны из корпуса TIMIT, для каждой эмоции было взято 15 фраз, при этом из них три были общими для всех эмоций, десять — разными для разных эмоций, но без эмоциональной специфики, а ещё две фразы были основаны на текстах, имеющих специфическую эмоциональной окраску для данной эмоции (например, Who authorized the unlimited expense account? [Кто одобрил счёт с неограниченным расходным лимитом?] для эмоции «гнев»). 15 фраз на каждую эмоцию и 30 нейтрально окрашенных фраз составляют в сумме 15 × 6 + 15 × 2 = 120 записей на актёра, что даёт нам всего 120 × 4 = 480 записей.

Тексты были также фонетически сбалансированы (по всей видимости, имели сходный друг с другом набор фонем, чтобы модель в процессе обучения вместо поиска эмоциональных особенностей произношения фразы не искала якобы специфичные для той или иной эмоции фонемы).

Хотя лексически SAVEE куда более разнообразен, чем RAVDESS, но, к сожалению, его объём крайне мал, что создаёт очевидные проблемы для разработчиков.

3. SEMAINE (Sustained Emotionally coloured Machine-human Interaction using Nonverbal Expression, Устойчивое эмоционально окрашенное взаимодействие машина — человек с использованием невербальной экспрессии), полное название: SEMAINE sensitive agent project database (база данных проекта чувствительного агента [консорциума] SEMAINE)[8], [9].

Эта аудиовизуальная база данных стала одним из продуктов исследовательской программы по созданию «Чувствующего искусственного слушателя» (Sensitive Artificial Listener, SAL) — аудиовизуальной диалоговой системы, способной вовлечь человека в длительный эмоционально окрашенный разговор. По сути, разговор с агентом SAL для человека напоминает обычный разговор при помощи системы видеосвязи с той лишь разницей, что собеседником является виртуальный персонаж, внешний облик которого (лицо, мимика, движения губ во время речи) в реальном времени генерируется при помощи библиотеки для трёхмерной визуализации.

Данные, содержащиеся в базе SEMAINE, были получены в результате взаимодействия между пользователями и человеком-оператором, имитирующим агента SAL, в двух различных конфигурациях: Solid SAL (в этом варианте оператор сам общается с пользователем, при этом демонстрируя при общении соответствующее невербальное поведение) и полуавтоматический SAL (здесь оператор управляет аватаром[10], с которым общается пользователь; таким образом, у пользователя создаётся впечатление, что он общается с машиной). Процесс общения фиксировался при помощи набора из синхронно работающего записывающего оборудования: пяти камер высокого разрешения с высокой частотой кадров и четырёх микрофонов. База включает в себя записи 959 диалогов, в которых участвовали 150 человек. Длина каждой записи около 5 минут. Все диалоги были расшифрованы и размечены (каждую запись размечали параллельно 6–8 разметчиков) при помощи эмоциональных меток (использовалась система с пятью шкалами и 27 эмоциональными классами). Другие сценарии помечены на том же шаблоне, но менее полно. Также для части записей присутствует разметка при помощи системы кодирования лицевых движений (Facial Action Coding System, FACS). Эта удивительная система была разработана Полом Экманом и Уоллесом Фризеном ещё в далёком 1978 году[11]. При помощи FACS можно описать практически любое анатомически возможное выражение лица путём разделения его на отдельные двигательные элементы, представленные на различных временных отрезках. Используя FACS, можно с лёгкостью отличить, например, «дежурную улыбку Pan-Am» (называется так в честь авиакомпании Pan American World Airways, стюардессы которой должны были улыбаться каждому пассажиру)[12] и искреннюю и спонтанную «улыбку Дюшена». Первая характеризуется сокращением одной только большой скуловой мышцы (Musculus zygomaticus major), в то время как вторая дополняется сокращением нижней части круговой мышцы глаза (Musculus orbicularis oculi). Руководство по FACS представляет собой более чем 500-страничное описание двигательных элементов и их возможных состояний.

Формально суммарная длительность аудиовизуальных фрагментов в базе SEMAINE более чем в два раза превосходит RAVDESS по аналогичному показателю, однако различные эмоции представлены в SEMAINE крайне неравномерно, также никак не был сбалансирован ни состав участников исследования, ни лексическая основа диалогов, что практически сводит на нет преимущество в объёме данных. Тем не менее нельзя не отметить удивительную детальность разметки, выполненной исследователями в рамках этого проекта.

Также разметка SEMAINE включает в себя информацию о смехе, кивках, покачиваниях головой и оценку степени вовлечённости пользователя в диалог.

4. TESS (Toronto emotional speech set, Набор эмоциональной речи [Университета] Торонто).

В 1966 г. исследователи из Северо-Западного университета разработали так называемый слуховой тест № 6, предназначенный для измерения чувствительности слуха пациентов. Набор фраз, используемых в тесте, состоит из фразы-носителя — Say the word… [Скажи слово…] и набора из 200 различных слов, которые добавляются к фразе-носителю. Исследователи из Университета Торонто использовали этот же набор текстов, при этом каждая из фраз произносилась двумя актрисами (26 и 64 лет; обе были из региона Торонто, являлись носительницами английского языка, имели высшее и высшее музыкальное образование) с семью различными типами эмоциональной окраски (использовались всё та же «большая шестёрка» эмоций и нейтральная окраска). Таким образом, в сумме было получено 200 × 7 × 2 = 2800 записей.

Этот весьма скромный по размерам датасет тем не менее нередко используется исследователями и в наши дни.

5. Berlin Database of Emotional Speech (EMO-DB) (Берлинская база данных эмоциональной речи)[13].

Этот германоязычный массив данных, впервые представленный на конференции InterSpeech-2005, на протяжении многих лет пользовался большой популярностью у исследователей эмоциональной речи. Десять актёров (пять женщин и пять мужчин) имитировали эмоции, произнося по десять предложений (пять коротких и пять более длинных), относящихся к повседневному лексикону. Записи были сделаны в студии с шумопоглощающим покрытием при помощи высококачественного записывающего оборудования. Помимо звука, были записаны электроглоттограммы. Электроглоттография основана на измерении динамики электрического сопротивления гортани во время произнесения фраз, что достигается при помощи пары электродов, располагаемых на передней поверхности шеи по обе стороны щитовидного хряща (Cartilago thyroidea).

10 актёров × 10 предложений × 7 эмоций (включая нейтральную) дают нам 700 записей, однако часть записей была выполнена повторно, поэтому в базе содержится на 100 записей больше. Все записи были подвергнуты оценке с привлечением 20 оценщиков, которые прослушивали записи в случайном порядке (повторное прослушивание не допускалось) и должны были определить эмоциональную окраску фразы и то, насколько убедительно эта эмоция была выражена. После этого для записей со средним уровнем узнавания эмоции более 80% и средней оценкой убедительности более 60% (которых оказалось 300 штук) разметчики дополнительно оценили интенсивность проявления эмоции (при этом имея возможность многократного прослушивания записи).

По современным меркам этот датасет невелик и может быть использован разве что в учебных целях.

6. IEMOCAP (Interactive emotional dyadic motion capture database, Интерактивная эмоциональная база данных [на основе] диадического захвата движений)[14].

Этот массив, созданный Лабораторией анализа и интерпретации речи (Speech Analysis and Interpretation Laboratory, SAIL) Университета Южной Калифорнии (University of Southern California), включает в себя записи диалогов (спонтанных и на основе заранее подготовленных сценариев) десяти участников. Данные включают в себя аудиозаписи с расшифровкой, видео, а также подробную информацию о выражении лица и движениях рук, эмоциональную разметку («большая шестёрка» + другая эмоция + нейтральная окраска, а также оценка эмоций по трём шкалам: валентность, активация и доминирование). Общий объём корпуса составляет около 12 часов.

7. HEU Emotion — один из свежих мультимодальных и многоязычных эмоциональных датасетов, опубликованный[15] китайскими исследователями в середине 2020 г.

Датасет включает в себя две части. Первая содержит 16 569 видеороликов (с 8984 действующими лицами), загруженных с Tumblr, Google и Giphy и представленных в двух модальностях (выражение лица и поза), вторая — 2435 фрагментов фильмов, сериалов и шоу (с 967 действующими лицами), представленных в трёх модальностях (выражение лица, поза и эмоционально окрашенная речь). Создатели датасета использовали эмоциональный алфавит из десяти эмоций, добавив к нейтральной эмоции и «большой шестёрке» разочарование, растерянность и скуку.

8. RUSLANA database (RUSsian LANguage Affective speech database, Русскоязычная база данных эмоциональной речи)[16].

Первая открытая русскоязычная база данных эмоциональной речи была создана в 2002 г. Её создатели — Вероника Макарова и Валерий Петрушин, а заказчики — японский Университет Мейкай (明海大学, Meikai daigaku, Meikai University), Национальный институт передовой промышленной науки и технологии (産業技術総合研究所, Sangyō Gijutsu Sōgō Kenkyū-sho, National Institute of Advanced Industrial Science and Technology) и исследовательская лаборатория Accenture Technology Labs консалтинговой компании Accenture.

База данных содержит записи 61 человека (12 мужчин и 49 женщин), которые произносят десять предложений с выражением следующих эмоциональных состояний: удивление, счастье, гнев, грусть, страх и нейтрально (без эмоциональной окраски). Таким образом, база содержит в сумме 61 × 10 × 6 = 3660 записей.

С момента появления RUSLANA свет увидели ещё несколько открытых русскоязычных эмоциональных датасетов, например аудиовизуальный RAMAS (впрочем, сейчас получить доступ к этому датасету вряд ли получится, поскольку компания, занимавшаяся его сбором, прекратила существование) и весьма внушительный по объёму (более 20 000 записей) набор эмоциональной детской речи EmoChildRu[17], но долгое время не существовало открытых датасетов взрослой эмоциональной русской речи, превосходящих RUSLANA по объёму.

9. Ситуация изменилась лишь в феврале 2022 г., когда команда SberDevices опубликовала датасет под названием Dusha, содержащий около 320 тысяч аудиозаписей общей продолжительностью примерно 350 часов.

Датасет разделён на две большие части. Первая (Podcast) состоит из фрагментов русскоязычных подкастов, вторая (Crowd) — из различных разговорных реплик, озвученных с помощью краудсорсинга. Пользователей краудсорсинговой платформы просили озвучивать реплики с заданной эмоциональной окраской (использовался эмоциональный алфавит, включающий следующие эмоции: 1) позитив, 2) нейтральная окраска, 3) грусть, 4) злость/раздражение). Далее все реплики были пропущены через независимых оценщиков (каждую реплику оценивало несколько человек), каждый из которых указывал распознанную им эмоциональную окраску прослушанного фрагмента, используя вышеуказанный алфавит. После этого те записи из части Crowd, в которых распознанная на слух эмоциональная окраска отличалась от той, которую стремились придать участники озвучки, не были включены в итоговый датасет[18], [19].

Конечно, проприетарные (частные) датасеты эмоциональной речи, собранные крупными российскими компаниями, по объёмам многократно превосходят открытые аналоги. Использование больших проприетарных датасетов позволяет создавать модели распознавания эмоций, существенно превосходящие по точности модели, описанные в научных публикациях. Однако у начинающих разработчиков и университетских исследователей нет никакой альтернативы использованию открытых датасетов, поэтому наличие последних весьма важно для обучения новых специалистов и развития науки.

Ограниченность объёма книги не позволяет нам подробно разобрать некоторые другие интересные эмоциональные наборы данных и модели, построенные на их базе, поэтому я ограничусь здесь лишь коротким упоминанием некоторых из них. В 2020 г. китайские исследователи представили общественности мультимодальный датасет MEmoR[20], основанный полностью на эмоциональной разметке сериала «Теория Большого взрыва» (Big Bang Theory). Создатели датасета уделили внимание разметке эмоций сразу нескольких персонажей, появляющихся в кадре, что позволяет моделям, обученным на этих данных, строить догадки о динамике эмоций общающихся людей. Мультимодальные датасеты MELD[21] и EmoryNLP[22] (оба включают около 13 тысяч фраз) основаны на другом популярном сериале — «Друзья» [Friends], другой мультимодальный датасет MEISD[23] содержит по 1000 диалогов сразу из восьми популярных телесериалов, а CMU-MOSEI[24] и MOSI[25] содержат по несколько тысяч видео с YouTube, снабжённых эмоциональной разметкой.

Некоторые эмоциональные датасеты включают в себя только текстовую модальность, но могут при этом иметь весьма внушительные размеры и сложную разметку. Например, датасет GoEmotions[26] содержит около 58 000 текстовых комментариев с платформы Reddit, размеченных при помощи алфавита, включающего в себя 27 эмоций. Датасеты, подобные DREAMER[27], ASCERTAIN[28] и K-EmoCon[29], содержат в себе данные, относящиеся к редким модальностям (например, включают в себя электроэнцефалограммы и электрокардиограммы). Датасет AffectNet содержит более миллиона изображений лиц (с опорными точками), размеченных при помощи 1250 эмоционально окрашенных тегов на шести разных языках: английском, немецком, испанском, португальском, арабском и фарси.

  1. Ververidis D., Kotropoulos C. (2003). A Review of Emotional Speech Databases / Proceedings of panhellenic conference on informatics, Thessaloniki, Greece, pp. 560—574 // http://poseidon.csd.auth.gr/LAB_PEOPLE/Ververidis/Ververidis_PCI_2003.pdf
  2. Pittermann J., Pittermann A., Minker W. (2009). Handling Emotions in Human-Computer Dialogues. Language Arts & Disciplines // https://books.google.ru/books?id=VUqEuXrk_hUC
  3. Livingstone S. R., Russo F. A. (2018). The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English / PLos One, May 16, 2018 // https://doi.org/10.1371/journal.pone.0196391
  4. Surrey Audio-Visual Expressed Emotion (SAVEE) Database (2015) // http://kahlan.eps.surrey.ac.uk/savee/
  5. Haq S., Jackson P. J. B. (2010). Multimodal Emotion Recognition / Wang W. (2010). Machine Audition: Principles, Algorithms and Systems. IGI Global Press, pp. 398—423 // https://doi.org/10.4018/978-1-61520-919-4
  6. Haq S., Jackson P. J. B. (2009). Speaker-Dependent Audio-Visual Emotion Recognition // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 53—58 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp09/HaqJackson_AVSP09.pdf
  7. Haq S., Jackson P. J. B., Edge J. D. (2008). Audio-Visual Feature Selection and Reduction for Emotion Classification // Proceedings of the International Conference on Auditory-Visual Speech Processing, pp. 185—190 // http://personal.ee.surrey.ac.uk/Personal/P.Jackson/pub/avsp08/HaqJacksonEdge_AVSP08.pdf
  8. McKeown G., Valstar M., Pantic M., Schroder M. (2012). The SEMAINE database: annotated multimodal records of emotionally coloured conversations between a person and a limited agent / IEEE Transactions on Affective Computing, Vol. 3, Iss. 1, pp. 5—17 // https://doi.org/10.1109/T-AFFC.2011.20
  9. The sensitive agent project database / SEMAINE Database // https://semaine-db.eu/
  10. * Аватар — воплощение человека в виртуальном мире.
  11. Ekman P., Friesen W. (1978). Facial Action Coding System: A Technique for the Measurement of Facial Movement. Consulting Psychologists Press, Palo Alto, 1978 // https://books.google.ru/books?id=08l6wgEACAAJ
  12. Burton V. (2013). Happy Women Live Better. Harvest House Publishers // https://books.google.ru/books?id=FW6jDDjtH4cC
  13. Burkhardt F., Paeschke A., Rolfes M., Sendlmeier W., Weiss B. (2005). A database of German emotional speech / 9th European Conference on Speech Communication and Technology, Vol. 5, pp. 1517—1520 // https://www.isca-speech.org/archive/interspeech_2005/i05_1517.html
  14. Busso C., Bulut M., Lee C.-C., Kazemzadeh A., Mower E., Kim S., Chang J. N., Lee S., Narayanan S. S. (2008). IEMOCAP: Interactive emotional dyadic motion capture database / Journal of Language Resources and Evaluation, Vol. 42, No. 4, pp. 335—359 // https://doi.org/10.1007/s10579-008-9076-6
  15. Chen J., Wang C., Wang K., Yin C., Zhao C., Xu T., Zhang X., Huang Z., Liu M., Yang T. (2020). HEU Emotion: A Large-scale Database for Multi-modal Emotion Recognition in the Wild // https://arxiv.org/abs/2007.12519
  16. Makarova V., Petrushin V. A. (2002). RUSLANA: A database of Russian emotional utterances / 7th International Conference on Spoken Language Processing, ICSLP2002 — INTERSPEECH 2002, Denver, Colorado, USA, September 16—20, 2002 // https://www.isca-speech.org/archive/archive_papers/icslp_2002/i02_2041.pdf
  17. Lyakso E., Frolova O., Dmitrieva E., Grigorev A., Kaya H., Salah A. A., Karpov A. (2015). EmoChildRu: Emotional Child Russian Speech Corpus / Ronzhin A., Potapova R., Fakotakis N. (2015). Speech and Computer. SPECOM 2015. Lecture Notes in Computer Science, Vol. 9319. Springer, Cham // https://doi.org/10.1007/978-3-319-23132-7_18
  18. Kondratenko V., Sokolov A., Karpov N., Kutuzov O., Savushkin N., Minkin F. (2022). Large Raw Emotional Dataset with Aggregation Mechanism // https://arxiv.org/abs/2212.12266
  19. djunka (2022). Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке. / Хабр, 8 фев. 2022 // https://habr.com/ru/companies/sberdevices/articles/715468/
  20. Shen G., Wang X., Duan X., Li H., Zhu W. (2020). MEmoR: A Dataset for Multimodal Emotion Reasoning in Videos / MM'20: Proceedings of the 28th ACM International Conference on Multimedia, October 2020, pp. 493—502 // https://doi.org/10.1145/3394171.3413909
  21. Poria S., Hazarika D., Majumder N., Naik G., Cambria E., Mihalcea R. (2018). MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations // https://arxiv.org/abs/1810.02508
  22. Zahiri S. M., Choi J. D. (2017). Emotion Detection on TV Show Transcripts with Sequence-based Convolutional Neural Networks // https://arxiv.org/abs/1708.04299
  23. Firdaus M., Chauhan H., Ekbal A., Bhattacharyya P. (2020). MEISD: A Multimodal Multi-Label Emotion, Intensity and Sentiment Dialogue Dataset for Emotion Recognition and Sentiment Analysis in Conversations // https://aclanthology.org/2020.coling-main.393.pdf
  24. Zadeh A. B., Liang P. P., Poria S., Cambria E., Morency L.-P. (2018). Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset and Interpretable Dynamic Fusion Graph // https://aclanthology.org/P18-1208/
  25. Zadeh A., Zellers R., Pincus E., Morency L.-P. (2016). MOSI: Multimodal Corpus of Sentiment Intensity and Subjectivity Analysis in Online Opinion Videos // https://arxiv.org/abs/1606.06259
  26. Demszky D., Movshovitz-Attias D., Ko J., Cowen A., Nemade G., Ravi S. (2020). GoEmotions: A Dataset of Fine-Grained Emotions // https://arxiv.org/abs/2005.00547
  27. Katsigiannis S., Ramzan N. (2018). DREAMER: A Database for Emotion Recognition Through EEG and ECG Signals from Wireless Low-cost Off-the-Shelf Devices // IEEE Journal of Biomedical and Health Informatics, Vol. 22, No. 1, pp. 98—107, January 2018 // https://doi.org/10.1109/JBHI.2017.2688239
  28. Subramanian R., Wache J., Abadi M. K., Vieriu R. L., Winkler S., Sebe N. (2018). ASCERTAIN: Emotion and Personality Recognition Using Commercial Sensors / IEEE Transactions on Affective Computing, Vol. 9, No. 2, pp. 147—160, 1 April—June 2018 // https://doi.org/10.1109/TAFFC.2016.2625250
  29. Park C. Y., Cha N., Kang S., Kim A., Khandoker A. H., Hadjileontiadis L., Oh A., Jeong Y., Lee U. (2020). K-EmoCon, a multimodal sensor dataset for continuous emotion recognition in naturalistic conversations / Scientific Data, Vol. 7, Iss. 293 // https://doi.org/10.1038/s41597-020-00630-y
Loading comments...