6.4.6 Первые применения нейронных сетей для синтеза речи
Попытки применения нейронных сетей к задаче синтеза речи предпринимались ещё до «революции глубокого обучения». Например, в 1998 г. тайваньские исследователи Сын-Хорн Чэнь, Шау-Хва Хван и И-Ру Ван использовали четырёхслойную рекуррентную нейронную сеть Элмана для генерации параметров произношения каждого из слогов (так называемой просодической информации) в системе синтеза речи для путунхуа (mandarin) — официального стандарта китайского языка. Однако это исследование[1] осталось практически незамеченным — сети Элмана, в отличие от LSTM-сетей, обладали рядом существенных недостатков, и добиться значительного преимущества по сравнению с классическими методами в тот момент не удалось. Кроме того, использование тонового китайского языка в качестве модельного затрудняло оценку работы со стороны западных исследователей. В общем, революция глубокого обучения в области синтеза речи началась лишь в первой половине 2010-х.
В 2012 г. в журнале IEEE Signal Processing Magazine появилась статья, подписанная 11 авторами из IBM, Google, Microsoft и Университета Торонто (последний был представлен уже знакомым нам Джеффри Хинтоном и его аспирантами). Статья называлась «Глубокие нейронные сети для акустического моделирования в распознавании речи: общие взгляды четырёх исследовательских групп» (Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups). Даже беглое чтение этой работы приводило к очевидной мысли: век скрытых марковских моделей в акустическом моделировании закончился. Если это произошло в области распознавания речи, значит, скорее всего, произойдёт и в области синтеза. И действительно, с 2013 г. начинается лавинообразный рост числа публикаций, в которых авторы пробуют применять глубокие нейронные сети в системах как параметрического, так и конкатенативного синтеза.
Кратко рассмотрим некоторые из важных работ, написанных в этот период.
В 2013 г. на Международной конференции по акустике, обработке речи и сигналов (International Conference on Acoustics, Speech, and Signal Processing, ICASSP) Хейга Дзэн и его коллеги из Google представили доклад под названием «Статистический параметрический синтез речи на основе глубоких нейронных сетей» (Statistical parametric speech synthesis using deep neural networks)[2]. В нём в качестве замены комбинации деревьев решений со скрытыми марковскими моделями исследуются полносвязные нейронные сети (вплоть до пятислойных) с сигмоидальными функциями активации. Для оценки результатов использовались парные сравнения 173 предложений, синтезированных с применением старого и нового подходов. Каждая пара предложений оценивалась пятью оценщиками, при этом каждый из оценщиков, участвовавших в эксперименте, выполнял не более 30 сравнений. Хотя число параметров старой и новой модели было равным, новая модель уверенно обошла старую.
На той же конференции Шийин Кан и его коллеги из Лаборатории человеко-компьютерных коммуникаций (Human Computer Communications Laboratory) Китайского университета Гонконга представили собственное исследование[3], в котором использовали в параметрической системе синтеза комбинацию глубоких сетей доверия со скрытыми марковскими моделями. Для оценки качества синтеза применялась усреднённая субъективная оценка (MOS, мы упоминали эту метрику в главе, посвящённой машинному переводу) по пятибалльной шкале. По сравнению с базовым подходом, основанным на использовании только скрытых марковских моделей, удалось добиться улучшения метрики с 2,86 до 3,09 балла (правда, оценка производилась лишь по десяти образцам речи от каждой из моделей десятью оценщиками).
В том же году в журнале IEEE Transactions on Audio, Speech, and Language Processing была опубликована совместная работа[4] исследователей из Microsoft и Национальной инженерной лаборатории по обработке языковой и речевой информации (National Engineering Laboratory of Speech and Language Information Processing) Университета науки и технологий Китая (University of Science and Technology of China, USTC), в которой также исследовались возможности комбинации скрытых марковских моделей с глубокими сетями доверия и ограниченными машинами Больцмана. Здесь авторы использовали попарные сравнения (50 предложений от каждой из оценивавшихся моделей и пять оценщиков) и продемонстрировали статистически значимое превосходство новых подходов (ограниченные машины Больцмана показали несколько лучший результат, чем глубокие сети доверия, однако разница между ними не была статистически значимой).
Далее, отталкиваясь от результатов, полученных Хейгой Дзэном и его коллегами, учёные из Центра исследования речевых технологий (Centre for Speech Technology Research) Эдинбургского университета изучили[5] различные виды представлений параметров на входе модели, предсказывающей входные параметры вокодера в SPSS-системе. Это была обобщающая работа, где авторы опробовали разные подходы и методы, в результате им удалось улучшить системы, основанные на скрытых марковских моделях. Хотя авторы и не смогли создать нейросетевую систему синтеза, которая оказалась бы лучше системы, основанной на скрытых марковских моделях, тем не менее их работа указала верное направление для дальнейших исследований в области нейросетевого синтеза речи.
В 2014 г. группа исследователей из Microsoft повторила успех Хейги Дзэна и его коллег из Google, применив в качестве классификатора полносвязную сеть с тремя обучаемыми слоями по 1024 нейрона в каждом. Они использовали небольшой обучающий корпус размером около пяти часов речи (на корпусах подобного или меньшего размера методы статистического параметрического синтеза в то время могли продемонстрировать превосходство над системами синтеза, основанными на unit selection). При этом авторы показали, что при применении сети меньшего размера (три обучаемых слоя по 512 нейронов) система нейросетевого синтеза речи не в состоянии статистически достоверно превзойти использованную в качестве эталона систему синтеза, основанную на скрытых марковских моделях[6]. В том же году этот же коллектив авторов представил на конференции Interspeech-2014 работу[7], в которой было показано, что комбинированная архитектура, сочетающая полносвязную и рекуррентную двунаправленную LSTM-сеть, позволяет получить ещё более качественные результаты синтеза.
На конференции Interspeech-2015 Рауль Фернандес и его коллеги из компании IBM продемонстрировали, что при использовании метода unit selection двунаправленная LSTM-сеть лучше справляется с выбором элементов в фонетической базе, чем «донейронный» алгоритм (в качестве базы для сравнения применялись «леса случайных деревьев» [random forest]). Фернандесу и его коллегам удалось добиться улучшения величины этой метрики на 0,29 пункта (с 3,18 до 3,47; для автоматизированной слепой оценки было использовано 40 фраз и 19 оценщиков)[8].
В 2015 г. на конференции ICASSP-2015 исследователи из уже знакомого нам Центра исследования речевых технологий Эдинбургского университета представили собственную систему нейросетевого параметрического синтеза речи, которая на этот раз смогла уверенно обойти эталонную скрытую марковскую модель. При этом авторы изобрели своеобразную нейросетевую архитектуру, в которой полносвязная сеть имела в числе своих слоёв один слой с меньшим числом нейронов, представляющий собой своеобразное «бутылочное горлышко». Значения сигналов, возникшие в этом слое на шаге x, передавались на специально выделенные для этой цели нейроны входного слоя сети на шаге x + 1. В некотором роде авторы, таким образом, переизобрели рекуррентные нейронные сети. Также авторы, стремясь уйти от трудоёмких попарных сравнений образцов синтезированной речи, изобрели собственную методику оценки качества синтеза, получившую название MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor, Множественные стимулы со скрытой точкой отсчёта и якорем).
В тесте приняли участие 15 оценщиков — носителей английского языка без диагностированных нарушений слуха. Каждому из них было предложено оценить 20 наборов, которые были случайно отобраны из 72 синтезированных фраз. Каждый набор включал десять образцов синтеза одного и того же предложения, девять из них были синтезированы одной из девяти оцениваемых систем, а одна была записью естественной речи, используемой в качестве скрытой точки отсчёта. Участников попросили оценить каждый образец по шкале от 0 (крайне плохо) до 100 (абсолютно естественно звучащая речь). Им также было дано указание дать ровно одному из десяти образцов в каждом наборе оценку 100. В результате теста исследователи получили 300 наборов оценок. В одном из них скрытая точка отсчёта не была оценена в 100 баллов, поэтому этот набор был исключён из дальнейшего анализа.
Авторы также пытались расширить выходной слой сети, чтобы поручить ей выполнение дополнительных вторичных задач (например, предсказание центральных частот формант F1—F4) в надежде, что это улучшит внутренние представления, выучиваемые сетью, что, в свою очередь, положительно повлияет на точность решения основной задачи. Однако здесь авторам не удалось добиться статистически значимых улучшений[9]. Вообще, публикация исследователями из Эдинбурга отрицательных результатов наряду с положительными, на мой взгляд, свидетельствует об их исключительной добросовестности.
В том же 2015 г. в Японии на Первом международном симпозиуме по машинному обучению в области обработки устной речи (First International Workshop on Machine Learning in Spoken Language Processing, MLSLP) Хейга Дзэн представил обзор прогресса в области систем статистического параметрического синтеза (от скрытых марковских моделей до LSTM-сетей). Обзор завершался следующим выводом: «Одной из основных причин, по которой HMM стали доминирующей акустической моделью в SPSS, является наличие программного обеспечения с открытым исходным кодом для создания полностью функциональных, „сквозных“ систем. Поскольку существует ряд пакетов программного обеспечения с открытым исходным кодом для глубокого обучения, автор ожидает, что искусственные нейронные сети станут следующей доминирующей акустической моделью в ближайшем будущем»[10] (сквозная, end-to-end система — система, которая реализует весь функционал от начала до конца; в данном случае система, которая преобразовывала бы текстовое представление в звуковой сигнал).
В 2016 г. совместная британо-японская группа исследователей из Эдинбургского университета и Национального института информатики Японии продемонстрировала превосходство глубоких моделей над скрытыми марковскими моделями как в традиционном статистическом параметрическом синтезе, так и в «гибридном синтезе» (этот термин авторы использовали для обозначения модели, в которой выбор элементов речевого сигнала производится при помощи модели статистического параметрического синтеза, но сами элементы могут не только извлекаться из базы данных, но и генерироваться при помощи вокодера)[11].
Как видно, авторы всех данных работ постепенно улучшали глубокие модели, используя разнообразные подходы. Нейросети всё более успешно справлялись с задачей синтеза речи, постепенно обходя скрытые марковские модели, но результаты этих двух подходов были всё ещё близки друг к другу.
О том, что стало решающим шагом вперёд, мы поговорим в следующей подглаве.
- ↑ Chen S.-H., Hwang S.-H., Wang Y.-R. (1998). An RNN-based prosodic information synthesizer for Mandarin text-to-speech / IEEE Transactions on Speech and Audio Processing, Vol. 6, No. 3, pp. 226—239 // https://doi.org/10.1109/89.668817
- ↑ Zen H., Senior A., Schuster M. (2013). Statistical parametric speech synthesis using deep neural networks / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639215
- ↑ Kang S., Qian X., Meng H. (2013). Multi-distribution deep belief network for speech synthesis / Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2013 // https://doi.org/10.1109/ICASSP.2013.6639225
- ↑ Ling Z.-H., Deng L., Yu D. (2013). Modeling Spectral Envelopes Using Restricted Boltzmann Machines and Deep Belief Networks for Statistical Parametric Speech Synthesis / IEEE Transactions on Audio, Speech, and Language Processing, Vol. 21(10), pp. 2129—2139 // https://doi.org/10.1109/tasl.2013.2269291
- ↑ Lu H., King S., Watts O. (2013). Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis / Proceedings of the 8th ISCASpeech Synthesis Workshop (SSW), 2013 // http://ssw8.talp.cat/papers/ssw8_PS3-3_Lu.pdf
- ↑ Qian Y., Fan Y., Hu W., Soong F. K. (2014). On the training aspects of deep neural network (DNN) for parametric TTS synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2014 // https://doi.org/10.1109/ICASSP.2014.6854318
- ↑ Fan Y., Qian Y., Xie F., Soong F. K. (2014). TTS synthesis with bidirectional LSTM based recurrent neural networks / Interspeech 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14—18, 2014 // https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_1964.pdf
- ↑ Fernandez R., Rendel A., Ramabhadran B., Hoory R. (2015). Using Deep Bidirectional Recurrent Neural Networks for Prosodic-Target Prediction in a Unit-Selection Text-to-Speech System / Interspeech 2015, 16th Annual Conference of the International Speech Communication Association, 2015 // https://www.isca-speech.org/archive/interspeech_2015/i15_1606.html
- ↑ Wu Z., Valentini-Botinhao C., Watts O., King S. (2015). Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis / Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2015 // https://doi.org/10.1109/ICASSP.2015.7178814
- ↑ Zen H. (2015). Acoustic Modeling in Statistical Parametric Speech Synthesis — From HMM to LSTM-RNN / Proceedings of the First International Workshop on Machine Learning in Spoken Language Processing (MLSLP2015), Aizu, Japan, 19–20 September 2015 // https://research.google/pubs/pub43893/
- ↑ Merritt T., Clark R. A. J., Wu Z., Yamagishi J., King S. (2016). Deep neural network-guided unit selection synthesis / 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2016.7472658