Перейти к содержанию

6.3.2.6 Метрики и проблемы качества перевода

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Хотя поздние RBMT-системы и ранние системы статистического перевода и не смогли достичь уровня качества профессиональных переводчиков, но смогли уверенно доказать свою полезность. Дело в том, что доступность профессионального перевода для среднестатистического читателя весьма ограниченна, особенно если речь идёт о не самых распространённых языках. Вряд ли рядовой пользователь интернет-форумов и социальных сетей станет обращаться к профессиональным переводчикам, чтобы прочитать комментарии иностранцев под видео любимой музыкальной группы. Услуги же системы машинного перевода обычно бесплатны и с точки зрения скорости и простоты выполнения перевода во много раз превосходят услуги людей-переводчиков. Там, где перевод осуществляется в развлекательных целях, цена ошибки сравнительно невелика, тем более что лишь небольшая часть ошибок машинного перевода искажает текст настолько, чтобы сделать непонятным смысл переведённой фразы. За последние два или три десятилетия было проделано множество попыток подсчитать, во сколько раз постредактирование машинного перевода быстрее, чем выполнение перевода с нуля. Полученный разброс оценок составил от двух- до более чем 10-кратного ускорения перевода при использовании постредактирования. И в этом нет ничего удивительного, ведь даже данные отчёта ALPAC говорят о том, что уже в 1960-е гг. постредактирование могло успешно конкурировать с полным переводом «вручную».

Тем не менее оценка реального прогресса в области машинного перевода всегда была связана с определёнными трудностями. Если не брать в расчёт грубые ошибки, оценка качества перевода содержит в себе субъективный элемент. Конечно, можно использовать усреднение оценок разных людей, на этом подходе основана, например, метрика, получившая название «усреднённая субъективная оценка» (Mean opinion score, MOS), однако её расчёт является в ряде случаев весьма затратным и небыстрым мероприятием. Поэтому в 2010-е гг. для оценки качества машинного перевода стали активно использовать автоматизированные метрики, такие как BLEU (Bilingual Evaluation Understudy, Двуязычная оценка сходства)[1], TER (Translation Edit Rate, Доля редактирования перевода — аналог WER при распознавании речи)[2], AMBER (A Modified BLEU, Enhanced Ranking, Модифицированный BLEU с улучшенным ранжированием)[3], METEOR (Metric for Evaluation of Translation with Explicit ORdering, Метрика оценки перевода с явным упорядочением)[4], LEPOR (Length Penalty, Precision, n-gram Position difference Penalty and Recall, Штраф за длину, точность, штраф за разницу в позициях n‑грамм и полнота)[5], nLEPOR[6], hLEPOR[7], ROUGE (Recall-Oriented Understudy for Gisting Evaluation, Ориентированный на полноту аналог оценки кратких аннотаций)[8] — изначально разработанная для оценки сжатого изложения текста, BERTScore (оценка перевода при помощи нейросетевой архитектуры BERT, о которой мы поговорим позже)[9] и так далее. Все эти метрики преследуют одну простую цель — при наличии перевода для оценки, а также референсного (эталонного) перевода, выполненного профессиональным переводчиком, оценить качество сделанного перевода. Если бы каждому предложению соответствовал единственный правильный перевод, то оценка качества перевода была бы тривиальной задачей, однако вариативность естественных языков настолько велика, что оценивать перевод, используя посимвольное сравнение с эталоном, нельзя — полученная оценка будет слабо коррелировать с оценками экспертов. Идея распространённой метрики BLEU, разработанной Кишором Папинени и его коллегами из IBM в 2001 г.[10] и опубликованной в статье[11] 2002 г., заключается в том, чтобы рассчитать долю совпадения n‑грамм в оцениваемом и референсном переводах, умножить её на поправочный коэффициент в случае, если длина (в словах) оцениваемого перевода меньше длины референсного, и, сделав данные подсчёты для разных n (от униграмм до квадрограмм), вычислить их среднее геометрическое как итоговый результат. Данная метрика является одной из наиболее простых и популярных метрик машинного перевода. Однако из-за простоты её адекватность регулярно подвергается критике, поэтому за последние два десятилетия был предложен ряд улучшений и альтернатив, в детали которых мы сейчас вдаваться не будем. Считается, что значение BLEU больше 0,5 соответствует очень хорошему переводу. В 2012 г. для пары «немецкий — английский» значение BLEU для лучшей из систем, представленных на VII Симпозиуме по статистическому машинному переводу (Workshop on Statistical Machine Translation), составило 0,24 (для сравнения: на сентябрь 2023 г. — 0,41), для пары «французский — английский» — 0,30 (на сентябрь 2023 г. — 0,46), а для пары «испанский — английский» — 0,38 (на сентябрь 2023 г. — 0,42)[12], [13], [14], [15]. К сожалению, сравнения проделаны на разных параллельных корпусах, поэтому их сопоставимость находится под вопросом, однако в целом прогресс в качестве перевода очевиден.

Быстрое развитие интернета и социальных сетей резко повысило спрос на сервисы машинного перевода, и непростая задача по наладке мультикультурного диалога внезапно легла на плечи алгоритмов, которые ещё недавно нередко воспринимались как игрушки, представляющие разве что теоретический интерес. Магазин под вывеской Translation server error [Ошибка сервера перевода], «Сосиска в тесте», в переводе превратившаяся в Sausage in the father in law (сосиску в тесте, но не в смысле «тесто», а в смысле «тесть»), московские вывески для китайских туристов, превратившие «Патриаршее подворье» в «Деревню шовинистов», а Красную площадь в «Красную колбасу», — всё это смешные реалии мира внезапно победившего машинного перевода. Ошибки машинного перевода стали отдельным жанром, породившим свои фанфики, вроде текста «Гуртовщики мыши» (якобы изуродованный машинным переводом документ, посвящённый драйверам мыши).

Хотя на первый взгляд может показаться, что RBMT-подход способен при должном усердии разработчиков найти приемлемые решения в большинстве случаев, практика обнажает серьёзные проблемы. Их наличие стало очевидным в конце условной эпохи «бури и натиска» в машинном переводе, то есть в 1950–1960-е гг., когда на волне общего энтузиазма в области вычислительной техники казалось, что проблема машинного перевода вот-вот будет решена. Хороший пример таких проблем привёл заведующий Лабораторией компьютерной лингвистики ИППИ РАН Игорь Богуславский. Простое предложение «Моих детей звали Иван и Пётр» RBMT-система интерпретирована не в том смысле, что именами детей были Пётр и Иван, а в том смысле, что некие Иван и Пётр позвали к себе детей[16]. Этот пример хорошо демонстрирует, что в ряде случаев локальные правила, работающие с текстом на уровне отдельных предложений, просто неспособны разрешить имеющуюся неопределённость, причём в ситуациях, когда речь не идёт о каких-то вычурных синтаксических конструкциях — предложение, показанное Богуславским, является совершенно ординарным, ничем не выдающимся на фоне других предложений в текстах общей тематики. Работая с таким предложением, человек-переводчик использует собственное понимание описываемых в тексте событий, он создаёт в своей голове модель мира, события которого описывает текст, и, отталкиваясь от этой модели, делает вывод о вероятности того или иного способа разрешения существующей в тексте неопределённости. Хуже того, эта картина опирается на знания переводчика об особенностях человеческой культуры. Скажем, переводчик знает об обычае запекать сосиску, обернув её слоем теста, поэтому ему в общем случае вряд ли придёт в голову идея о том, что сосиска может быть внутри тестя, а не теста. Хотя, разумеется, всё зависит от контекста, в текстах специфической тематики вариант с тестем вполне может оказаться правильным. Учитывая все эти сложности, некоторые эксперты относят машинный перевод к числу ИИ-полных задач, и доказать или опровергнуть их точку зрения смогут лишь дальнейшие успехи в этой сложной, но чрезвычайно интересной области ИИ.

Впрочем, революция глубокого обучения вполне ожидаемо оказала влияние и на машинный перевод (о чём мы поговорим в следующем разделе), что даёт нам некоторые соображения относительно того, как этот спор будет разрешён.

В конце 2010-х гг. появились первые исследования, посвящённые систематическому мониторингу качества машинного перевода. В первую очередь речь идёт об обзорах[17][18], [19], [20], публикуемых группой исследователей из компании Intento под руководством Григория Сапунова. Обзор 2020 г. включает в себя анализ качества работы 15 различных систем машинного перевода для 15 отраслей и 14 языковых пар. Сравнение производилось на основе современных метрик качества перевода (в первую очередь BERTScore). При подготовке Стэнфордского отчёта о развитии искусственного интеллекта Artificial Intelligence Index Report за 2019 г.[21] именно исследование команды Сапунова легло в основу раздела о машинном переводе.

Исследования Intento показывают быстрый рост как числа систем машинного перевода и поддерживаемых ими языковых пар, так и качества самого перевода. Давайте попробуем разобраться в том, какие именно методы сделали возможным столь быстрый прогресс в этой сложной для машинного интеллекта области.

  1. Papineni K., Roukos S., Ward T., Zhu W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311—317 // https://doi.org/10.3115/1073083.1073135
  2. Snover M., Dorr B., Schwartz R., Micciulla L., Makhoul J. (2006). A Study of Translation Edit Rate with Targeted Human Annotation / Proceedings of Association for Machine Translation in the Americas, 2006, pp. 223—231 // http://mt-archive.info/AMTA-2006-Snover.pdf
  3. Chen B., Kuhn R. (2011). AMBER: a modified BLEU, enhanced ranking metric / WMT '11: Proceedings of the Sixth Workshop on Statistical Machine Translation, July 2011, pp. 71—77 // https://www.aclweb.org/anthology/W11-2105/
  4. Banerjee S., Lavie A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments / Proceedings of the ACL 2005 Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization // https://www.aclweb.org/anthology/W05-0909/
  5. Han A. L.-F. (2017). LEPOR: An Augmented Machine Translation Evaluation Metric // https://arxiv.org/abs/1703.08748
  6. Han A. L.-F., Wong D. F., Chao L. S., He L., Lu Y. (2014). Unsupervised Quality Estimation Model for English to German Translation and Its Application in Extensive Supervised Evaluation / The Scientific World Journal, Vol. 2014 // https://doi.org/10.1155/2014/760301
  7. Aaron Li-Feng Han A. L.-F., Wong D. F., Chao L. S., He L., Lu Y., Xing J., Zeng X. (2013). Language-independent Model for Machine Translation Evaluation with Reinforced Factors / Proceedings of the XIV Machine Translation Summit (Nice, September 2–6, 2013), pp. 215—222 // http://www.mt-archive.info/10/MTS-2013-Han.pdf
  8. Lin C.-Y. (2004). ROUGE: a Package for Automatic Evaluation of Summaries / Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004), Barcelona, Spain, July 25—26, 2004 // https://www.aclweb.org/anthology/W04-1013/
  9. Zhang T., Kishore V., Wu F., Weinberger K. Q., Artzi Y. (2020). BERTScore: Evaluating Text Generation with BERT // https://arxiv.org/abs/1904.09675
  10. Marie B. (2022). BLEU: A Misunderstood Metric from Another Age But still used today in AI research / Towards Data Science, Nov 5, 2022. // https://towardsdatascience.com/bleu-a-misunderstood-metric-from-another-age-d434e18f1b37
  11. Papineni K., Roukos S., Ward T., Zhu W.-J. (2002). BLEU: a Method for Automatic Evaluation of Machine Translation / Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pp. 311—317 // https://doi.org/10.3115/1073083.1073135
  12. Callison-Burch C., Koehn P., Monz C., Post M., Soricut R., Specia L. (2013). Findings of the 2012 Workshop on Statistical Machine Translation / NAACL 2012 Seventh Workshop on Statistical Machine Translation // http://www.statmt.org/wmt12/pdf/WMT02.pdf
  13. Gao P., He Z., Wu H., Wang H. (2022). Bi-SimCut: A Simple Strategy for Boosting Neural Machine Translation // https://arxiv.org/abs/2206.02368
  14. Wei J., Bosma M., Zhao V. Y., Guu К., Yu A. W., Lester B., Du N., Dai A. M., Le Q. V. (2021). Finetuned Language Models Are Zero-Shot Learners // https://arxiv.org/abs/2109.01652
  15. Liang X., Wu L., Li J., Wang Y., Meng Q., Qin T., Chen W., Zhang M., Liu T.-Y. (2020). R-Drop: Regularized Dropout for Neural Networks // https://arxiv.org/abs/2106.14448
  16. Лагунина И., Ольшанская Е. (2004). Машинный перевод / Радио Свобода, 21 января // https://www.svoboda.org/a/24196111.html
  17. Savenkov K. (2018). State of the machine translation by Intento (2018) // https://www.slideshare.net/KonstantinSavenkov/state-of-the-machine-translation-by-intento-july-2018
  18. Savenkov K. (2019). State of the Machine Translation (January 2019) / Intento, Mar 9, 2019 // https://blog.inten.to/state-of-the-machine-translation-january-2019-dffe15884d63
  19. Savenkov K. (2019). State of the Machine Translation (June 2019) // Intento, Jun 20, 2019 // https://blog.inten.to/state-of-the-machine-translation-june-2019-e3ffb457b76c
  20. The State of Machine Translation 2020. Independent multi-domain evaluation of commercial Machine Translation engines (2020) / Intento // https://try.inten.to/mt_report_2020
  21. Stanford Human-Centered Artificial Intelligence (HAI) (2019). Artificial Intelligence Index Report 2019 // https://hai.stanford.edu/sites/default/files/ai_index_2019_report.pdf
Loading comments...