6.2.2.3 Корпусы речи
В области распознавания речи пока что так и не появилось своего аналога ImageNet, однако для английского языка было создано несколько весьма солидных по объёму публичных корпусов, содержащих снабжённые текстовой расшифровкой записи человеческой речи.
Первая попытка создания стандартного корпуса аудиозаписей человеческой речи для исследовательских целей была предпринята ещё в 1980-е гг. В 1988 г. опубликовали датасет, получивший имя TIMIT — в нём объединены аббревиатуры TI (компания Texas Instruments) и MIT (Массачусетский технологический институт). Официальное название датасета — DARPA-TIMIT Acoustic-Phonetic Continuous Speech Corpus (Акустико-фонетический непрерывный речевой корпус DARPA-TIMIT). Заказчиком, как можно догадаться из полного названия корпуса, выступило DARPA, а исполнителями — MIT, Texas Instruments и SRI (Стэнфордский исследовательский институт в Менло-Парке, знакомый нам по совместным с Розенблаттом проектам в 1960-е гг.). Подготовка данных для публикации была осуществлена Национальным институтом стандартов и технологий (NIST). Датасет содержит записи 630 дикторов, являющихся носителями одного из восьми распространённых в США диалектов английского языка. Каждый из дикторов зачитывает по девять фраз (семь из них выбраны из большого текстового датасета, а две представляли собой фразы, характерные для соответствующего диалекта — так называемые шибболеты, набор которых был подготовлен исследователями из SRI). Средняя длина одной фразы составляет около 30 секунд. Каждой аудиозаписи соответствует текстовая транскрипция, привязанная к аудио по временным меткам. Целью разработки TIMIT было углубление знаний в области акустики и фонетики, а также разработка систем автоматического распознавания речи. Стоимость проекта по созданию и распространению этого корпуса составила около 1,5 млн долларов[1]. Примечательно, что TIMIT не является открытым набором данных — для доступа к нему требуется либо членство в Консорциуме лингвистических данных, либо внесение денежного платежа.
В 1997 г. свет увидела база данных Switchboard, ставшая результатом одноимённого эксперимента, в ходе которого роботизированная система случайным образом соединяла двух добровольцев, предварительно сообщив им тему для последующего разговора. Всего корпус содержит 2430 записей разговоров средней продолжительностью около 6 минут, что в сумме даёт около 240 часов аудио. Запись осуществлялась с частотой дискретизации 8 кГц (каждый из участников разговора записывался в отдельный канал), в эксперименте участвовало чуть более 500 человек, а суммарная длина текстовых расшифровок превысила 3 млн слов.
В том же году Консорциум лингвистических данных (Linguistic Data Consortium, LDC) подготовил вторую базу под названием CALLHOME American English Speech[2], содержащую 120 тридцатиминутных записей телефонных разговоров носителей английского языка, в которых они преимущественно общались с родственниками или близкими друзьями на произвольные темы.
В 2004–2005 гг. Консорциум опубликовал так называемый корпус Фишера (The Fisher corpus)[3], [4], [5] — базу данных, созданную в рамках проекта DARPA EARS (Effective, Affordable, Reusable Speech-to-Text, Эффективный, доступный, пригодный для «переиспользования» перевод речи в текст) и содержащую ещё около 2000 часов записей телефонных переговоров с текстовой расшифровкой (всего 11 699 записей; запись, как и в CALLHOME и Switchboard, велась с частотой 8 кГц в раздельные каналы).
Для тестирования качества распознавания английской речи LDC на протяжении многих лет использовал стандартизированный датасет, получивший название «2000 HUB5 English Evaluation Transcripts»[6] (коротко — Hub’2000 или даже Hub5’00), состоящий из 40 записей телефонных разговоров общей продолжительностью около четырёх часов. Этот датасет был впервые использован в 2000 г. на конкурсе Hub5, спонсировавшемся NIST. Половина разговоров Hub5’00 взята из неопубликованной части Switchboard, вторая — из неопубликованной части CALLHOME. Hub5’00 не был первым датасетом, использованным для оценки качества распознавания речи (на это как бы намекает цифра 5 в названии датасета), но именно Hub5’00 на долгие годы стал наиболее популярным массивом для оценки качества работы систем распознавания речи.
В 2015 г. появился корпус LibriSpeech[7], содержащий 1000 часов записей аудиокниг, находящихся в публичном доступе. В отличие от предшественников LibriSpeech содержит записи, выполненные с частотой дискретизации 16 кГц. В наши дни он весьма популярен в качестве основы для сравнения различных систем распознавания речи. Этот датасет разделён на две части. Первую составляют «чистые» [clean] записи, а вторую — «прочие» [other]. Для того чтобы разделить датасет на две части, была использована система распознавания речи, обученная на другом, более старом датасете — WSJ (содержащем надиктованную на микрофон подборку новостей из The Wall Street Journal)[8]. Далее записи 50% дикторов, чью речь модель распознала лучше всего, были отнесены к первой части датасета, а записи оставшихся дикторов — ко второй[9].
LibriSpeech с его 1000 часов записей является на сегодняшний день самым большим открытым речевым датасетом. При этом объёмы проприетарных (несвободных) датасетов, находящихся в распоряжении крупных корпораций, составляют на сегодняшний день десятки тысяч часов[10].
- ↑ Garofolo J. S., Lamel L. F., Fisher W. M., Fiscus J. G., Pallett D. S., Dahlgren N. L. (1993). DARPA TIMIT: (Technical report). National Institute of Standards and Technology // https://doi.org/10.6028/nist.ir.4930
- ↑ Canavan A., Graff D., Zipperlen G. (1997). CALLHOME American English Speech LDC97S42. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC97S42
- ↑ Cieri C., Miller D., Walker K. (2004). The Fisher corpus: A resource for the next generations of speech-to-text // https://www.ldc.upenn.edu/sites/www.ldc.upenn.edu/files/lrec2004-fisher-corpus.pdf
- ↑ Cieri C., Graff D., Kimball O., Miller D., Walker K. (2004). Fisher English Training Speech Part 1 Transcripts // https://catalog.ldc.upenn.edu/LDC2004T19
- ↑ Cieri C., Graff D., Kimball O., Miller D., Walker K. (2005). Fisher English Training Part 2, Transcripts // https://catalog.ldc.upenn.edu/LDC2005T19
- ↑ Linguistic Data Consortium (2002). 2000 HUB5 English Evaluation Transcripts LDC2002T43. Web Download. Philadelphia: Linguistic Data Consortium // https://catalog.ldc.upenn.edu/LDC2002T43
- ↑ Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964
- ↑ Garofolo J. S., Graff D., Paul D., Pallett D. (2007). CSR-I (WSJ0) Complete // https://doi.org/10.35111/ewkm-cg47
- ↑ Panayotov V., Chen G., Povey D., Khudanpur S. (2015). LibriSpeech: an ASR corpus based on public domain audio books / 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) // https://doi.org/10.1109/ICASSP.2015.7178964
- ↑ He Y., Sainath T. N., Prabhavalkar R., McGraw I., Alvarez R., Zhao D., Rybach D., Kannan A., Wu Y., Pang R., Liang Q., Bhatia D., Shangguan Y., Li B., Pundak G., Sim K. C., Bagby T., Chang S., Rao K., Gruenstein A. (2018). Streaming End-to-end Speech Recognition For Mobile Devices // https://arxiv.org/abs/1811.06621