Перейти к содержанию

6.3.2.3 Джорджтаунский эксперимент, принёсший оптимизм

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Первая крупная демонстрация результатов состоялась 7 января 1954 г. в Нью-Йорке, в штаб-квартире корпорации IBM, и получила название «Джорджтаунский эксперимент» (его подготовкой, совместно с IBM, занималась группа исследователей из Джорджтаунского университета).

В ходе эксперимента оператор, не знавший русского языка, ввёл в машину более 60 записанных транслитом предложений. Переводы на английский, выполненные машиной, выводились на бумагу при помощи принтера. На перевод одного предложения у машины уходило от 5 до 8 секунд.

Демонстрация возможностей системы на машине IBM 701 завершилась успешно, несмотря на то что она использовала всего шесть грамматических правил и словарь из 250 записей, включавших оригинальное слово и один или два варианта его перевода[1].

Основной тематикой выбранных для эксперимента предложений была органическая химия, однако тестовый набор включал в себя также около 20 предложений, относящихся к другим областям. Именно их обычно выбирали авторы популярных статей, посвящённых демонстрации (по всей видимости, в силу того, что примеры из области химии не казались им достаточно интересными для широкой публики).

Вот несколько примеров переводов, выполненных машиной:

KACHYESTVO UGLYA OPRYEDYELYAYETSYA KALORYIYNOSTJYU → The quality of coal is determined by calory content.

KRAXMAL VIRABATIVAYETSYA MYEXANYICHYESKYIM PUTYEM YIZ KARTOFYELYA → Starch is produced by mechanical methods from potatoes.

VYELYICHYINA UGLA OPRYEDYELYAYETSYA OTNOSHYENYIYEM DLYINI DUGI K RADYIUSU → Magnitude of angle is determined by the relation of length of arc to radius.

OBRABOTKA POVISHAYET KACHYESTVO NYEFTYI → Processing improves the quality of crude oil.

MI PYERYEDAYEM MISLYI POSRYEDSTVOM RYECHYI → We transmit thoughts by means of speech.

ZHIYELYEZO DOBIVAYETSYA YIZ RUDI XYIMYICHYESKYIM PROTSYESSOM → Iron is obtained from ore by chemical process.

VOYENNIY SUD PRYIGOVORYIL SYERZHANTA K LYISHYENYIYU GRAZHDANSKYIX PRAV → A military court sentenced a sergeant to deprival of civil rights.

VLADYIMYIR YAVLYAYETSYA NA RABOTU POZDNO UTROM → Vladimir appears for work late in the morning.

MYEZHDUNARODNOYE PONYIMANYIYE YAVLYAYETSYA VAZHNIM FAKTOROM V RYESHYENYIYI POLYITYICHYESKIX VOPROSOV → International understanding constitutes an important factor in decision of political questions.

KOMANDYIR POLUCHAYET SVYEDYENYIYA PO TYELYEGRAFU → A commander gets information over a telegraph.

DOROGI STROYATSYA YIZ BYETONA → Roads are constructed from concrete.

DYINAMYIT PRYIGOTOVLYAYETSYA XYIMYICHYESKYIM PROTSYESSOM YIZ NYITROGLYITSYERYINA S PRYIMYESJYU YINYERTNIX SOYEDYINYENYIY → Dynamite is prepared by chemical process from nitroglycerine with admixture of inert compounds.

Соруководителями Джорджтаунского эксперимента были глава института языков и лингвистики Джорджтаунского университета Леон Достерт и глава Отдела прикладных наук (Applied Science Department) компании IBM Катберт Хёрд, близкий друг фон Неймана.

Достерт был признанным специалистом по инновациям в области перевода. Именно он руководил разработкой системы синхронного перевода с использованием наушников, впервые использованной в ходе Нюрнбергского процесса и используемой по сей день в Организации Объединённых Наций, Совете Европы и других международных организациях.

Полный список предложений, использованных в ходе Джорджтаунского эксперимента, не был опубликован, однако в книге «Машинный перевод» (Machine Translation)[2], написанной женой Леона Достерта Боженой Гениш-Достерт и её коллегами, приводится список из использованных в ходе эксперимента 49 предложений, подготовленных адъюнкт-профессором Джорджтаунского университета Полом Гарвином.

В этой книге авторы обращают внимание, что важной особенностью использованных в Джорджтаунском эксперименте предложений было то, что все они подчинялись ряду важных ограничений: ни в одном из них не было отрицательных частиц, отсутствовали вопросительные и сложные предложения, все глаголы были в форме третьего лица.

Благодаря этим ограничениям система с крошечным словарём и небольшим набором правил смогла продемонстрировать весьма впечатляющие результаты, способные создать у неспециалистов ощущение, что задача машинного перевода уже решена. Впрочем, вполне в соответствии с духом эпохи чрезмерный оптимизм был присущ не только дилетантам — по результатам эксперимента Достерт предсказал, что уже через 3–5 лет для важных областей нескольких языков будет возможен передающий смысл электронный перевод[3].

При этом Достерт рассматривал Джорджтаунский эксперимент не более как попытку доказать жизнеспособность самой концепции. Хотя публичная демонстрация работы системы с технологической точки зрения и была преждевременной, однако у Достерта, видимо, была ещё одна важная цель — ему нужно было привлечь средства для дальнейших исследований, что и удалось сделать[4].

В 1954 г. в сентябрьской тетрадке «Реферативного журнала» (№ 10, с. 75–76) (серия «Математика») Института научной информации (ИНИ) АН СССР появился реферат № 5293: «Перевод с одного языка на другой при помощи машины: Отчёт о первом успешном испытании» за авторством директора института профессора Дмитрия Панова. Реферат содержал отчёт о Джорджтаунском эксперименте.

Именно с этого реферата начинается отсчёт истории машинного перевода в СССР. По приглашению Панова созданием советской системы машинного перевода занялась молодая аспирантка Изабелла Бельская. К лету 1955 г. была закончена работа над первой версией алгоритма перевода текста с английского языка на русский, а к концу 1955 г. были произведены первые опыты на машине БЭСМ. Первый советский компьютерный переводчик использовал словарь из 2300 слов.

Через некоторое время после окончания аспирантуры Бельская поступила на работу в ИНИ, а затем возглавила группу в ИТМиВТ Лебедева.

Параллельно разработкой алгоритмов для машинного перевода занялась команда Отделения прикладной математики Математического института АН СССР (МИАН) под руководством Ляпунова. Её основными участниками были аспирантка Ольга Кулагина и студент филологического факультета МГУ Игорь Мельчук, в будущем известный лингвист.

В 1956 г. усилиями Владимира Успенского, Вячеслава Ива́нова и Петра Кузнецова на филологическом факультете МГУ открылся семинар по проблемам математической лингвистики. Позже на его базе по инициативе Виктора Розенцвейга, заведующего кафедрой перевода Московского государственного педагогического института иностранных языков (МГПИИЯ), было создано Объединение по машинному переводу — неформальный центр общения математиков и лингвистов. В том же году на ХХ съезде КПСС автоматический перевод был объявлен одним из приоритетных направлений научных исследований в связи с «общей программой технического прогресса».

С 1957 г. под редакцией Розенцвейга начал выходить «Бюллетень Объединения по проблемам машинного перевода», получивший позже название «Машинный перевод и прикладная лингвистика».

В мае 1958 г. в Москве прошла организованная Розенцвейгом первая советская конференция по машинному переводу. В ней приняли участие 340 человек из 79 организаций. По её итогам Министерство высшего образования СССР издало приказ «О развитии научных исследований в области машинного перевода», придавший дополнительный импульс развитию машинного перевода в СССР.

В 1959 г. в СССР велась работа уже над более чем двумя десятками алгоритмов машинного перевода, причём для нескольких языковых пар решением задачи перевода было занято сразу несколько коллективов разработчиков. Специалисты ИТМиВТ работали над англо-русским, японско-русским, китайско-русским и немецко-русским переводом. Сотрудники Отделения прикладной математики Математического института АН СССР — над французско-русским и англо-русским. В Институте языкознания Академии наук СССР — над венгерско-русским.

Также работа велась в Ленинградском государственном университете (индонезийско-русский, арабско-русский, хинди-русский, японско-русский, бирманско-русский, норвежско-русский, англо-русский, немецко-русский, вьетнамско-русский, русско-английский, испанско-русский, китайско-русский и турецко-русский перевод), в Горьковском государственном университете (французско-русский и англо-русский перевод), в Вычислительном центре Академии наук Армянской ССР (армянско-русский и русско-армянский перевод) и в Институте автоматики и телемеханики Академии наук Грузинской ССР (грузинско-русский и русско-грузинский перевод). Конечно, у всех этих решений была весьма разная степень готовности: где-то имелись уже полностью работоспособные программы, а где-то лишь наброски алгоритмов. Но в целом надо признать, что машинный перевод стал темой, которой в СССР уделялось существенное внимание. В этом отношении ситуация в Советском Союзе вполне соответствовала мировым трендам. В США разработкой систем машинного перевода были также параллельно заняты несколько исследовательских групп.

Системы машинного перевода, созданные в 1950-е — начале 1960-х гг., обычно рассматривали текст как последовательность предложений, каждое из которых обрабатывалось по отдельности. Они использовали большие двуязычные словари и запрограммированные правила для определения порядка слов в переведённом тексте. Этот подход в наши дни часто называют прямым машинным переводом [direct machine translation]. Несмотря на сравнительную простоту используемых алгоритмов, некоторые системы, созданные в это время, были внедрены в промышленную эксплуатацию и активно применялись на практике. Например, Военно-воздушные силы США вплоть до начала 1970‑х гг. использовали систему, созданную группой исследователей Вашингтонского университета под руководством Эрвина Райфлера. Райфлер и его коллеги работали над двумя языковыми парами: «английский — немецкий» и «английский — русский». С 1958 г. развитием этой системы занималась команда разработчиков из компании IBM под руководством Гилберта Кинга.

Комиссия по атомной энергии и Евратом (Европейское сообщество по атомной энергии) в Италии, а также Национальная лаборатория Атомной энергетической комиссии США Oak Ridge использовали системы, ядро которых было разработано в Джорджтаунском университете. Со времён Джорджтаунского эксперимента этот университет стал основным центром исследований машинного перевода в США. Из-за методологических разногласий, возникших среди исследователей, в университете были созданы сразу четыре группы, каждой из которых было предложено представить свои методы для тестирования на открытом конкурсе, в ходе которого необходимо было переводить с русского языка тексты из области химии. Победителем стал прототип, разработанный группой под руководством Майкла Заречнака. Он лёг в основу системы, получившей название GAT (Georgetown Automatic Translation, Джорджтаунский автоматический перевод). Метод, опубликованный командой Заречнака в 1959 г.[5], получил название «общий анализ» [general analysis]. В его рамках текст анализировался на трёх уровнях: морфологическом (включая определение идиом), синтагматическом (согласование существительных и прилагательных, управление глаголами и т. д.) и синтаксическом (выделение подлежащих, сказуемых и т. д.).

Ещё одним западным центром исследований в области машинного перевода в 1950-е гг. стала корпорация RAND, исследователи которой вели эксперименты по применению в машинном переводе методов статистического анализа текстов[6], [7].

В целом, несмотря на скудность аппаратных средств, машинный перевод стал в конце 1950-х — начале 1960-х гг. популярным направлением для теоретических и прикладных исследований, и с его развитием было связано множество оптимистических ожиданий.

  1. Macdonald N. (1954). Language translation by machine — a report of the first successful trial / Computers and Automation, Vol. 3 (2), February 1954 // http://mt-archive.info/Macdonald-1954.pdf
  2. Henisz-Dostert B., Macdonald R. R., Zarechnak M. (2011). Machine Translation. Walter de Gruyter // https://books.google.ru/books?id=St4iXxXoIIAC
  3. 701 Translator. IBM Press release, January 8, 1954 // http://www.mt-archive.info/IBM-1954.pdf
  4. Hutchins W. J. (2004). The Georgetown-IBM experiment demonstrated in January 1954 / Conference of the Association for Machine Translation in the Americas AMTA 2004: Machine Translation: From Real Users to Research, pp. 102—114 // https://doi.org/10.1007/978-3-540-30194-3_12
  5. Zarechnak M. (1959). Three Levels of Linguistic Analysis in Machine Translation / Journal of the ACM, January 1959 // https://doi.org/10.1145/320954.320956
  6. Hutchins W. J. (2000). Early Years in Machine Translation: Memoirs and biographies of pioneers. John Benjamins Publishing // https://books.google.ru/books?id=3dU5AAAAQBAJ
  7. Hutchins W. J. (1995). Machine translation: a brief history / Koerner E. F. K., Asher R. E. (1995). Concise history of the language sciences: from the Sumerians to the cognitivists. Oxford: Pergamon Press // http://hutchinsweb.me.uk/ConcHistoryLangSci-1995.pdf
Loading comments...