Перейти к содержанию

6.3.2.5 Подходы к машинному переводу и его дальнейшее развитие

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Подход, положенный в основу большинства систем машинного перевода, созданных до 1960-х гг., иногда называют прямым переводом. Системы разрабатывались обычно для конкретной пары языков. Синтаксис и семантика языка анализировались в таких системах лишь до той степени, в которой это было необходимо для разрешения неоднозначностей, выбора правильных вариантов перевода слов и определения порядка слов в результирующих предложениях.

Типичным примером была система Джорджтаунского университета, которая в итоге оказалась одной из наиболее успешных систем, основанных на прямом переводе. Исследовательская группа из Джорджтауна использовала технику, которую Гарвин позже назвал методом грубой силы [brute force]: программа разрабатывалась на основе некоторого корпуса текстов, затем проверялась на другом корпусе, исправлялась и улучшалась, затем тестировалась на ещё большем корпусе, улучшалась вновь и так далее. Результатом стала монолитная программа с запутанной структурой, без чёткого разделения частей, отвечающих за анализ исходного и синтез результирующего текста. Синтаксический анализ был реализован лишь в зачаточной форме, отсутствовали понятия грамматических правил и синтаксических структур. Разумеется, в таких условиях трудно было рассуждать о теории языка или перевода[1]. Информация о грамматике языка была включена в исходный код программы, что затрудняло возможности дальнейшего развития системы из-за приближения к пределу управления сложностью.

Впрочем, даже в таких условиях находилось пространство для теоретических споров. В Советском Союзе эти споры приобрели традиционно наиболее ожесточённый характер, их отголоски даже вылились на страницы научно-фантастической литературы. В повести братьев Стругацких «Попытка к бегству», написанной в 1962 г., один из персонажей назван структурным (и даже «структуральнейшим») лингвистом, а рассуждения о языке, а также работа лингвиста XXII в. с инопланетным языком являются одной из заметных составляющих сюжета. В рассуждении персонажей Стругацких можно найти множество отсылок к дискуссиям 1950–1960-х гг. Спор о структурализме в СССР в 1950-е гг. во многом вращался вокруг основного на тот момент вопроса машинного перевода — о принципиальной возможности автоматизации лингвистики. Можно ли в принципе при помощи формальных структур описать закономерности, существующие в живых, развивающихся языках?[2]

В 1960 г., за два года до выхода повести Стругацких, на филологическом факультете МГУ было создано Отделение теоретической и прикладной лингвистики (вскоре переименованное в Отделение структурной и прикладной лингвистики, ОСиПЛ; ныне — Отделение теоретической и прикладной лингвистики, ОТиПЛ), объединившее ведущих советских специалистов в области обработки естественного языка. Современным лингвистам хорошо знакомы имена многих из этих исследователей. В их числе были уже упоминавшийся нами Владимир Успенский, Александр Кибрик, Юрий Апресян и Андрей Зализняк. Эти учёные стали создателями новых теоретических концепций в области лингвистики и даже целых научных направлений.

Трудно дать однозначный ответ на вопрос о том, повлиял ли и в какой мере повлиял отчёт ALPAC на развитие машинного перевода в Советском Союзе. Работы в этом направлении продолжались, однако область машинного перевода, по всей видимости, уже не рассматривалась государством в качестве приоритетной. Энтузиасты продолжали работу над системами машинного перевода, и, хотя эта работа велась вне фокуса пристального внимания общества, она начала постепенно принимать более структурированный характер. Важной вехой стало появление теории «Смысл ⇔ Текст» (ТСТ), предложенной Мельчуком и развитой при деятельном участии других советских лингвистов, среди которых отдельно следует упомянуть Александра Жолковского, а также Юрия Апресяна. ТСТ представляет язык как многоуровневую модель преобразований смысла в текст и обратно. Создатели теории формулируют ключевой постулат ТСТ следующим образом: «Естественный язык есть система, устанавливающая соответствия между любым заданным смыслом и всеми выражающими его текстами; соответственно, лингвистическое описание некоторого языка должно представлять собой множество правил, ставящих в соответствие всякому смыслу все тексты данного языка, несущие этот смысл».

Также среди важных особенностей этой теории можно назвать использование синтаксиса зависимостей, то есть такого способа представления предложений, в котором предложение рассматривается как иерархия компонентов, между которыми установлены отношения зависимости. Ещё один столп ТСТ — использование особого вида словаря, толково-комбинаторного, цель которого состоит в явном и исчерпывающем описании всей той информации, которой располагает средний носитель языка относительно отдельно взятого слова[3]. Во второй половине 1960-х гг. ТСТ стала в нашей стране одной из основ экспериментальной лингвистики, хотя предлагаемые ею принципы расходятся с идеями, положенными в основу популярной во всём мире генеративной лингвистики.

Эта концепция обычно ассоциируется с именем американского лингвиста Ноама Хомского, в трудах которого она получила окончательное оформление. Однако, несмотря на большой авторитет Хомского в среде вычислительных лингвистов, неверно было бы полагать, что хомскианская лингвистика появилась на свет подобно Минерве из головы Юпитера.

Сам Хомский называл источником своих идей рационалистическую философию Рене Декарта и созданные под её влиянием так называемые картезианские грамматики, например знаменитую «Грамматику Пор-Рояля» — книгу, изданную в 1660 г. аббатами монастыря Пор-Рояль Антуаном Арно и Клодом Лансло. Мыслители XVII столетия занимались активными поисками универсальных свойств языка: под влиянием расширения межгосударственных связей и трудностей, связанных с процессом перевода, обрела популярность идея создания «всемирного языка», для чего, в свою очередь, нужно было выявить свойства, которыми обладают реальные языки. Хотя Хомский и использует термин «картезианские грамматики», картезианские идеи присутствуют ещё в работах ряда предшественников Декарта.

Именно в «Грамматике Пор-Рояля» Хомский находит в зачаточной форме один из наиболее фундаментальных принципов своей концепции, заключающейся в разграничении поверхностной и глубинной структур языка. Поверхностная структура соответствует только материальному аспекту (фонетике и грамматике), а глубинная — значению (семантике). Хомский пишет: «Глубинная структура соотносится с поверхностной структурой посредством некоторых мыслительных операций, в современной терминологии — посредством грамматических трансформаций».

Помимо картезианских грамматик, идейно концепция Хомского (как и некоторые другие течения в структурной лингвистике, например функционализм[4], [5], [6]) восходит к трудам отца-основателя структурной лингвистики Фердинанда де Соссюра[7].

Соссюр (кстати говоря, мы знакомы с его идеями только по отдельным статьям, единственной книге, законченной автором в возрасте 21 года и посвящённой первоначальной системе гласных в индоевропейских языках, а также текстам лекций, восстановленным позднее по конспектам студентов, — сам учёный считал, что представления его оформились недостаточно и нельзя даже помышлять об издании книги по интересующему его направлению[8]) рассматривал лингвистику как часть более общей дисциплины, которую он предложил назвать семиологией. По его замыслу, семиология должна была стать наукой, изучающей жизнь знаков в обществе, являясь, в свою очередь, разделом социальной и, следовательно, общей психологии. Соссюр утверждал, что законы, которые откроет семиология, будут применимы и к лингвистике.

Центральным понятием семиологии по Соссюру является «знак» [signe] как неразделимое единство «означающего» [signifiant] и «означаемого» [signifié]. Соссюр анализирует отношения, складывающиеся между означающим и означаемым в языке, то есть между акустическими образами [sound-image] слов и олицетворяемыми ими понятиями [concept], и приходит к выводу, что в данном случае отношения между первыми и вторыми являются в значительной степени «произвольными», «немотивированными» (т. е. не имеющими естественной связи друг с другом). В этом Соссюр усматривает принципиальное отличие знаков от символов [symbole], поскольку символ никогда не бывает в полной мере произвольным[9]: «Символ характеризуется тем, что он никогда не бывает полностью произвольным; он не является бессодержательным, ибо существует рудимент естественной связи между означающим и означаемым. Символ справедливости, весы, нельзя заменить каким-либо произвольным символом, например колесницей»[10].

Впрочем, неверно было бы полагать, что Соссюр утверждает, что отношения между означающим и означаемым в языке всегда произвольны, как это полагали некоторые наиболее радикальные интерпретаторы идей учёного. Рассуждая об относительной и абсолютной произвольности, Соссюр прямо выступает против такого поверхностного толкования:

Механизм языка может быть представлен и под другим, исключительно важным углом зрения. Основной принцип произвольности знака не препятствует нам различать в каждом языке то, что полностью произвольно, то есть немотивировано, от того, что произвольно лишь относительно. Только часть знаков является абсолютно произвольной; у других же обнаруживаются признаки, позволяющие отнести их к различным степеням произвольности, то есть знак может быть мотивированным относительно.

<…>

Не существует языков, где нет ничего мотивированного; но представить себе такой язык, где мотивировано было бы всё, невозможно по определению. Между двумя крайностями — наименьшей организованностью и наименьшей произвольностью — находятся все промежуточные случаи. Разные языки включают в себя элементы обоих типов — целиком произвольные и относительно мотивированные, — но в весьма разных пропорциях, и эту важную характеристику можно учитывать при классификации языков[11].

Соссюр утверждал: «Язык есть система, все элементы которой образуют целое, а значимость одного элемента проистекает только из одновременного наличия прочих», то есть отдельно взятая языковая единица не имеет собственного значения и обретает смысл только в объединении с другими. Таким образом, семантика является производной структуры, образуемой языковыми единицами, и именно поэтому основной фокус исследований следует сделать на внутренних взаимосвязях языка, на зависимости одних его элементов от других[12], [13].

Одним из первых конкретных воплощений идей Соссюра стала глоссематика [glossematics] датского лингвиста Луи Ельмслева — теория, в которой язык рассматривается как одна из семиотических систем, как структура, которую можно строго формализовать, используя методы математики, логики и семиотики. Ельмслев стал одним из пионеров применения к языковым структурам алгебраических методов, и, хотя его система и не предполагала, например, возможности рекурсии, её можно рассматривать в качестве одной из первых «порождающих грамматик» (generative grammar, термин также передаётся на русский язык как «генеративная грамматика», «трансформационно-порождающая» грамматика, в ранних работах — «трансформационная грамматика»), то есть систем правил, позволяющих определить, какая комбинация слов составляет грамматически правильное предложение[14], [15], [16].

Дальнейшее развитие идея трансформационных грамматик получила в работах одного из учителей Хомского — Зеллига Харриса. Именно под руководством последнего Хомский работал над своей магистерской диссертацией «Морфонология современного иврита» (Morphophonemics of Modern Hebrew), завершённой в 1951 г. Осмысливая позже результаты своих ранних исследований, Хомский писал: «Когда несколько лет спустя я начал более серьёзно исследовать генеративный синтаксис (т. е. после 1951 г. — С. М.), мне удалось приспособить для этой цели новую концепцию, разработанную Зеллигом Харрисом и несколькими его учениками, а именно — концепцию „грамматической трансформации“. Вскоре стало очевидно, что с помощью этой новой концепции могут быть преодолены многие недостатки модели, которую я использовал ранее»[17].

Впрочем, подход Хомского с самого начала демонстрировал некоторые важные особенности, отличавшие его от подхода Харриса. Можно отметить, что для ранних работ Хомского характерен гораздо больший акцент на формальных и математических свойствах правил и их систем, чем для работ Харриса того же периода. Для Хомского преобразования [transformations] были правилами, формальными инструкциями со входами и выходами, в то время как для Харриса они были скорее констатацией регулярных соответствий между парами предложений. Хомский придерживался «вертикального» взгляда на преобразования, когда более глубокие структуры трансформировались в менее глубокие в результате последовательных преобразований, тогда как взгляд Харриса был в основном «горизонтальным». Правда, в статье «Сосуществование и трансформация» 1957 г. Харрис описывает также и «вертикальную» точку зрения, но в его работах она не получила такого глубокого развития, как в исследованиях Хомского[18], [19].

10 сентября 1956 г., менее чем через месяц после окончания знаменитой Дартмутской конференции, на которой Джон Маккарти впервые сделал достоянием общественности термин «искусственный интеллект», в MIT состоялся симпозиум Специальной группы по теории информации (тот самый, который, по мнению Джорджа Миллера, положил начало когнитивной науке). Два этих мероприятия были близки не только по времени проведения, но и по составу участников. Как и в Дартмуте, на симпозиуме в MIT присутствовали Аллен Ньюэлл и Герберт Саймон. Именно на симпозиуме в MIT и был представлен доклад Хомского о формальных грамматиках [formal grammars], познакомивший специалистов в области ИИ с подходом к обработке естественного языка, основанном на иерархических системах правил[20], [21]. Таким образом, Хомский заметно повлиял на развитие компьютерной лингвистики на заре ИИ подобно тому, как Хебб повлиял на вычислительную нейробиологию. Как и Хебб, Хомский не был первооткрывателем представленных им концепций, однако он стал тем человеком, который выстроил мост между фундаментальной наукой и прикладными исследованиями, развернувшимися в связи с развитием вычислительной техники.

В отличие от ТСТ генеративная грамматика Хомского вполне в духе структурной лингвистики абстрагируется от семантики отдельных языковых единиц (интересно, что в отношении этого тезиса Зеллиг Харрис, как мы убедимся позже, не разделял радикализма Хомского). Вклад Хомского в теоретические основы современных технологий обработки символьных данных трудно переоценить. Именно он создал классификацию формальных языков и формальных грамматик (так называемую иерархию Хомского), согласно которой все формальные грамматики (и формальные языки) делятся на четыре типа по их условной сложности (от самых сложных к самым простым: «тип 0» — неограниченные, «тип 1» — контекстно-зависимые, «тип-2» — контекстно-свободные и «тип-3» — регулярные). Иерархия Хомского устанавливает связь между свойствами вычислительных алгоритмов (и вычислительных систем), необходимых для обработки грамматики, и типами правил (продукций), лежащих в основе её организации[22]. Однако спустя более чем полстолетия многие идеи и методы Хомского вызывают оживлённую полемику среди лингвистов. Например, Хомский считал, что человеческая психика содержит врождённый механизм усвоения языка [Language Acquisition Device], который реализует принципы генеративной грамматики и тем самым делает ребёнка способным усвоить структуру языка на базе сравнительно скудных данных[23]. Позже американский философ Джерри Фодор, развивая идеи Хомского и стремясь уйти от идеи «специальности» когнитивных механизмов, стоящих в основе обучения языку, предложил собственную, более общую концепцию модулярности сознания[24], а также гипотезу о «языке мышления» (Language of thought hypothesis, LTH[25])[26], согласно которой мысли в сознании людей представлены при помощи своеобразного языка (Фодор дал ему название «ментализ» [mentalese], дословно это название можно перевести как «психанский [язык]»), в котором определяются связи между простыми компонентами мысли или концептами. Согласно гипотезе Фодора такой язык должен быть врождённым и универсальным для всех людей.

Также стоит отметить, что наборы генеративных правил, предложенных Хомским, изначально опирались лишь на грамматику английского языка (и, возможно, отчасти иврита — единственного языка, кроме родного, с которым Хомский был сравнительно неплохо знаком). Иерархия правил на протяжении лет много раз дополнялась и пересматривалась. Словом, неудивительно, что не все специалисты в области компьютерной лингвистики были в восторге от идей Хомского, что и приводило к появлению теорий, подобных ТСТ.

Одним из результатов работы основоположников ТСТ было создание системы машинного перевода ЭТАП (Электротехнический автоматический перевод), работа над которой началась в 1972 г. в институте «Информэлектро» при Министерстве электромеханической промышленности СССР. Заведовал группой автоматического перевода в «Информэлектро» Апресян, а главным архитектором системы стал Леонид Цинман. Плодами работы группы стали системы ЭТАП-1 (предназначенная для перевода с французского языка), ЭТАП-2 (для перевода с английского), а также многоцелевой лингвистический процессор ЭТАП-3. Причём ЭТАП-3 предназначался для решения широкого спектра задач обработки естественного языка, среди которых был и машинный перевод. С 1985 г. команда, занимавшаяся созданием системы ЭТАП, продолжила свою работу в Институте проблем передачи информации (ИППИ РАН), где на её основе была создана Лаборатория компьютерной лингвистики[27], [28].

Важно отметить, что при обработке естественного языка в рамках классической парадигмы ИИ (вне зависимости от особенностей применяемого подхода — ТСТ, порождающей грамматики и т. д.), помимо описания языковых структур, необходимо выполнять также ряд операций на уровне отдельных слов. Для того чтобы программа могла выстроить структуру текста, необходимо выполнить его лексическую предобработку (препроцессинг). Создание алгоритмов для эффективного препроцессинга — отдельный, весьма внушительный пласт работы в области компьютерной лингвистики. Определение формы слова, лемматизация (приведение слова к его начальной форме, например «кошкам» → «кошка»), словообразование — всё это требует наличия адекватных морфологических моделей. В СССР над такими моделями работали многие выдающиеся лингвисты, в числе которых можно отметить Андрея Зализняка.

В 1974 г. открылся Всесоюзный центр переводов научно-технической литературы и документации ГКНТ и АН СССР (ВЦП), сотрудники которого начали разработку сразу трёх систем, предназначенных для выполнения машинного перевода в промышленных масштабах. Система для англо-русского перевода получила название АМПАР, для немецко-русского — НЕРПА и для французско-русского — ФРАП[29].

В 1970-е гг. RBMT-системы (напомним, что это системы перевода на основе правил) активно развивались и на Западе, как в рамках коммерческих проектов, таких как SYSTRAN, так и в академической среде. Репутация систем машинного перевода в глазах американских государственных чиновников, пошатнувшаяся после отчёта ALPAC, была в определённой мере восстановлена благодаря успехам системы Logos MT, использовавшейся для перевода военной документации на вьетнамский язык во время войны во Вьетнаме. Что же до академии, то центры разработки систем машинного перевода возникали порой в довольно неожиданных местах. Например, в 1970 г. во Французском текстильном институте (Institut Textile de France) была создана система TITUS, использовавшаяся для перевода аннотаций к научным статьям. Система поддерживала целых четыре языка — французский, английский, немецкий и испанский — и могла выполнять перевод с и на каждый из этих языков. В 1972 г. в Китайском университете Гонконга (Chinese University of Hong Kong) была создана система CULT (Chinese University Language Translator, Переводчик Китайского университета), предназначенная для перевода математических текстов с китайского языка на английский[30], [31]. В 1971 г. Университет Бригама Янга (Brigham Young University, BYU) — частный университет США, основанный Церковью Иисуса Христа Святых последних дней, — начал проект по переводу текстов мормонов на другие языки с помощью машинного перевода[32], [33]. На фоне таких исследовательских организаций советский институт «Информэлектро» в качестве одного из мировых центров развития технологий машинного перевода вовсе не казался какой-то экзотикой.

Несмотря на отдельные успехи RBMT-систем, почти одновременно с выходом их на мировую арену начинается активный поиск альтернативных подходов. Идеи Уивера об использовании в переводе статистических методов вновь приобретают актуальность, особенно в свете растущей производительности вычислительных машин. В Советском Союзе это направление получило развитие благодаря усилиям Раймунда Пиотровского. В 1957 г. по его инициативе была создана исследовательская группа «Статистика речи», к которой со временем присоединился ряд исследователей из различных вузов со всех уголков Советского Союза[34]. В работе группы участвовали лингвисты, математики и программисты[35]. Пиотровский рассматривал естественный язык как нечёткую систему, которая охватывает размытые множества, состоящие из нечётких лингвистических объектов[36].

В 1971 г. при Ленинградском государственном педагогическом институте имени А. И. Герцена (ЛГПИ) под руководством Пиотровского была создана Научно-исследовательская лаборатория инженерной лингвистики, сотрудники которой активно занимались разработкой технологий для автоматической обработки текста. В 1991 г. бывшие сотрудники этой лаборатории под руководством Светланы Соколовой основали компанию PROMT[37]. Название PROMT является сокращением от PROject of Machine Translation (Проект машинного перевода). В октябре 1998 г. компания запустила первый российский сервис машинного перевода — translate.ru.

Первые версии PROMT использовали RBMT-подход, а в 2009 г. компания представила гибридную технологию перевода, использующую элементы статистического машинного перевода.

В 2006 г. компания Google запустила бесплатный сервис Google Translate, основанный на технологии статистического машинного перевода. Идея Google Translate основывалась на поиске определённых структур в корпусе текстов, чтобы затем на базе анализа найденных структур принять решение о том, какие именно варианты перевода слов следует выбрать и как расположить их в структуре целевого языка. Изначально Google Translate практически во всех случаях использовал английский в качестве языка-посредника, то есть при переводе в любой языковой паре, не включающей в себя английский язык, текст сначала переводился с языка-источника на английский, а затем полученный англоязычный текст переводился на целевой язык перевода. Двойной перевод в совокупности с низкой грамматической точностью ранних статистических алгоритмов приводил к сравнительно невысокому качеству перевода, что стало источником множества шуток и забавных ошибок, превратившихся в мемы, однако сам сервис приобрёл большую популярность во всём мире.

Парадоксальным образом в эпоху больших данных ранние системы статистического перевода страдали именно от нехватки данных. Хотя за 2000–2010 гг. уже было накоплено огромное количество оцифрованных текстов, двуязычные тексты, основанные на точных и хорошо синхронизированных с оригиналами переводах, оставались большой редкостью. Создатели Google Translate были вынуждены использовать в качестве базы для статистического перевода документы и стенограммы Организации Объединённых Наций и Европейского парламента, однако этот корпус не столь уж велик и вдобавок весьма ограничен с точки зрения стиля и набора тем.

Последующее появление обширных синхронных корпусов дву- и многоязычных текстов сильно помогло обучению новых, нейросетевых моделей. Например, в 2021–2022 гг. компания Meta (бывшая Facebook), опубликовала корпуса FLORES (Facebook Low Resource, Малоресурсные [языки] от Facebook) и NLLB (No Language Left Behind, Ни один язык не будет брошен), содержащие свыше 450 Гб синхронных текстов, охватывающих более 200 языков. Обученная на этих данных нейросетевая модель, получившая название NLLB-200[38], была выложена исследователями в открытый доступ и по сей день является одним из лучших открытых решений для задач машинного перевода (придя на смену своей предшественнице — созданной в 2020 г. модели M2M-100[39]). В августе 2023 г. исследователи из Meta выпустили модель SeamlessM4T (Seamless Massively Multilingual & Multimodal Machine Translation, Бесшовный массово многоязычный и мультимодальный машинный перевод) — эта модель способна принимать на вход текст или аудиозапись речи более чем на ста поддерживаемых языках и выдавать на выход перевод: в виде текста более чем на ста языках, а в виде аудиозаписи — на 36 языках[40].

О том, какие архитектуры лежат в основе таких моделей, мы расскажем несколько позже.

  1. Hutchins W. J. (1982). The evolution of machine translation systems / Lawson V. (1982). Practical experience of machine translation // http://www.mt-archive.info/Aslib-1981-Hutchins-1.pdf
  2. Вельмезова Е. (2015). Снова об универсалиях «лингвистическо-литературных»: «Структуральнейшая лингвистика» в повести А. и Б. Стругацких «Попытка к бегству» / Фаустов А. (2015). Универсалии русской литературы. Т. 6. — Воронеж: Издательско-полиграфический центр «Научная книга» // http://www.rusf.ru/abs/rec/velmez01.htm
  3. Мельчук И. А. (1984). Русский язык в модели смысл-текст / Russian Language Journal, Vol. 38, Iss. 129/130, pp. 189—198 // https://codenlp.ru/knigi/russkiy-yazyik-v-modeli-smyisl-tekst-melchuk.html
  4. * Функционализм (функциональный структурализм, функциональная лингвистика) — совокупность школ и направлений, возникших как одно из ответвлений структурной лингвистики; характеризуется фокусом на функционировании языка как средства общения. Изначальный импульс развития функционализм получил в «Тезисах Пражского лингвистического кружка» (1929), а затем был развит в работах представителей Пражской лингвистической школы.
  5. Алпатов В. М. (2005). История лингвистических учений. Учебное пособие / 4-е изд., исправ. и доп. — М.: Языки славянской культуры // http://genling.spbu.ru/hl/085.pdf
  6. Ярцева В. Н. (1990). Лингвистический энциклопедический словарь. — М.: Советская энциклопедия // http://tapemark.narod.ru/les/index.html
  7. Алпатов В. М. (2005). История лингвистических учений / 4-е изд., исправ. и доп. — М.: Языки славянской культуры // http://genling.spbu.ru/hl/085.pdf
  8. Алпатов В. М. (2005). История лингвистических учений / 4-е изд., исправ. и доп. — М.: Языки славянской культуры // http://genling.spbu.ru/hl/085.pdf
  9. de Saussure F., Riedlinger A. Course in General Linguistics. Translated by Wade Baskin. Philosophical Library // https://books.google.ru/books?id=MCdZAAAAMAAJ
  10. Berger A. A. (2018). Media Analysis Techniques. SAGE Publications // https://books.google.ru/books?id=kbVItAEACAAJ
  11. de Saussure F., Riedlinger A. Course in General Linguistics. Translated by Wade Baskin. Philosophical Library // https://books.google.ru/books?id=MCdZAAAAMAAJ
  12. Алпатов В. М. (2005). История лингвистических учений / 4-е изд., исправ. и доп. — М.: Языки славянской культуры // http://genling.spbu.ru/hl/085.pdf
  13. Лукин О. В. (2015). История языкознания с VI в. до н. э. до середины XX в. Учебное пособие // http://yspu.org/images/4/48/История_языкознания.pdf
  14. Galofaro F. (2013). Formalizing Narrative Structures: Glossematics, Generativity, and Transformational Rules / Signata, No. 4, 2013, p. 227-246 // https://doi.org/10.4000/signata.757
  15. Seuren P. (1998). Western Linguistics: An Historical Introduction. Wiley // https://books.google.ru/books?id=YD7fupu-qS0C
  16. Sova R. (2006). Genesis of Two Algebraic Theories of Language / Linguistica ONLINE, January, 30th 2006 // http://www.phil.muni.cz/linguistica/art/sova/sov-001.pdf
  17. Chomsky N. (1975). The Logical Structure of Linguistic Theory. Springer US // https://books.google.ru/books?id=1D66ktXOITAC
  18. Seuren P. (1998). Western Linguistics: An Historical Introduction. Wiley // https://books.google.ru/books?id=YD7fupu-qS0C
  19. Graffi G. (2017). Harris, Chomsky and the origins of transformational grammar / Lingvisticæ Investigationes, Vol. 39, Iss. 1, Dec 2016, pp. 48—87 // https://doi.org/10.1075/li.39.1.03gra
  20. Louwerse M. (2021). Keeping Those Words in Mind: How Language Creates Meaning. Rowman & Littlefield // https://books.google.ru/books?id=gbcmEAAAQBAJ
  21. Miller G. A. (2003). The cognitive revolution: a historical perspective / TRENDS in Cognitive Sciences, Vol. 7, No.3, March 2003 // https://www.cs.princeton.edu/~rit/geo/Miller.pdf
  22. Davis M. D., Sigal R., Weyuker E. J. (1994). Computability, Complexity, and Languages: Fundamentals of Theoretical Computer Science (2nd ed.). Boston: Academic Press, Harcourt, Brace // https://books.google.ru/books?id=6G_arEqHtysC
  23. Chomsky N. (1965). Aspects of the Theory of Syntax. MIT Press // https://books.google.ru/books?id=SOtsAAAAIAAJ
  24. Fodor J. A. (1983). The Modularity of Mind: An Essay on Faculty Psychology // https://books.google.ru/books?id=e7nrSeibJZYC
  25. * Иногда также используется термин «Упорядоченное психическое представление мыслей» (Thought ordered mental expression, TOME).
  26. Fodor J. A. (1975). The Language of Thought // https://books.google.ru/books?id=XZwGLBYLbg4C
  27. Лагунина И., Ольшанская Е. (2004). Машинный перевод / Радио Свобода, 21 января // https://www.svoboda.org/a/24196111.html
  28. Лаборатория №15. Компьютерная лингвистика / Российская академия наук. Институт проблем передачи информации им. А. А. Харкевича // http://iitp.ru/ru/researchlabs/245.htm
  29. Галактионов В. А., Мусатов А. М., Мансурова О. Ю., Ёлкин С. В., Клышинский Э. С., Максимов В. Ю., Аминева С. Н., Жирнов Р. В., Игашов С. Ю., Мусаева Т. Н. (2007). Система машинного перевода «Кросслятор 2.0» и анализ её функциональности для задачи трансляции знаний // https://www.keldysh.ru/papers/2007/prep89/prep2007_89.html
  30. Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ
  31. Loh S.-C., Kong L., Hung H.-S. (1978). Machine translation of Chinese mathematical articles / ALLC Bulltein, Vol. 6(2), pp. 111—120 // http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.598.8762&rep=rep1&type=pdf
  32. Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ
  33. Chan S. (2004). A Dictionary of Translation Technology. Chinese University Press // https://books.google.ru/books?id=3gwOFvbxMGcC
  34. Лаздинь Т. А. (2009). Основы статистической оптимизации преподавания иностранных языков / Вестник СПбГУ. Язык и литература. 2009. № 3 // https://cyberleninka.ru/article/n/osnovy-statisticheskoy-optimizatsii-prepodavaniya-inostrannyh-yazykov
  35. Зубов А. В., Носкова Т. Н. (2017). Р. Г. Пиотровский — основатель компьютерной лингвистики в Беларуси / Пиотровские чтения 2017 // http://ceur-ws.org/Vol-2233/
  36. Пиотровский Р. Г. (1980). Статистика речи и автоматический анализ текста. — Л.: Наука // https://www.phantastike.com/linguistics/statistika_rechi_1980/pdf/
  37. История машинного перевода: от гипотез Лейбница и Декарта — до мобильных приложений и облачных сервисов (2019) / PROMT // https://www.promt.ru/press/blog/istoriya-mashinnogo-perevoda-ot-gipotez-leybnitsa-i-dekarta-do-mobilnykh-prilozheniy-i-oblachnykh-se/
  38. NLLB Team, Costa-jussà M. R., Cross J., Çelebi O., Elbayad M., Heafield K., Heffernan K., Kalbassi E., Lam J., Licht D., Maillard J., Sun A., Wang S., Wenzek G., Youngblood A., Akula B., Barrault L., Gonzalez G. M., Hansanti P., Hoffman J., Jarrett S., Sadagopan K. R., Rowe D., Spruit S., Tran C., Andrews P., Ayan N. F., Bhosale S., Edunov S., Fan A., Gao C., Goswami V., Guzmán F., Koehn P., Mourachko A., Ropers C., Saleem S., Schwenk H., Wang J. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation // https://arxiv.org/abs/2207.04672
  39. Fan A., Bhosale S., Schwenk H., Ma Z., El-Kishky A., Goyal S., Baines M., Celebi O., Wenzek G., Chaudhary V., Goyal N., Birch T., Liptchinsky V., Edunov S., Grave E., Auli M., Joulin A. (2020). Beyond English-Centric Multilingual Machine Translation // https://arxiv.org/abs/2010.11125
  40. Seamless Communication, Barrault L., Chung Y., Meglioli M. C., Dale D., Dong N., Duquenne P., Elsahar H., Gong H., Heffernan K., Hoffman J., Klaiber C., Li P., Licht D., Maillard J., Rakotoarison A., Sadagopan K. R., Wenzek G., Ye E., Akula B., Chen P., Hachem N. E., Ellis B., Gonzalez G. M., Haaheim J., Hansanti P., Howes R., Huang B., Hwang M., Inaguma H., Jain S., Kalbassi E., Kallet A., Kulikov I., Lam J., Li D., Ma X., Mavlyutov R., Peloquin B., Ramadan M., Ramakrishnan A., Sun A., Tran K., Tran T., Tufanov I., Vogeti V., Wood C., Yang Y., Yu B., Andrews P., Balioglu C., Costa-jussà M. R., Celebi O., Elbayad M., Gao C., Guzmán F., Kao J., Lee A., Mourachko A., Pino J., Popuri S., Ropers C., Saleem S., Schwenk H., Tomasello P., Wang C., Wang J., Wang S. (2023). SeamlessM4T-Massively Multilingual & Multimodal Machine Translation // https://aps.arxiv.org/abs/2308.11596
Loading comments...