Перейти к содержанию

1.2 Тест Тьюринга, китайская комната Сёрля

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

В конце 30-х гг. прошлого века, ещё до того, как были созданы первые электронные вычислительные машины, вопросами потенциальной «разумности» машин стали задаваться люди, формально далёкие от компьютерных наук. Если нечто выглядит как кошка, мяукает как кошка, ведёт себя как кошка, в любом эксперименте проявляет себя как кошка, то, наверное, это кошка. Этот подход использовал Альфред Айер — английский философ-неопозитивист, представитель аналитической философии. В книге «Язык, истина и логика» (Language, Truth and Logic, 1936) он предложил алгоритм распознавания разумного человека и неразумной машины: «Единственным основанием, на котором я могу утверждать, что объект, который кажется разумным, на самом деле не разумное существо, а просто глупая машина, является то, что он не может пройти один из эмпирических тестов, согласно которым определяется наличие или отсутствие сознания»[1]. Впрочем, Айер, будучи философом, наверняка был в курсе остроумного замечания Дидро: «Если удастся найти попугая, способного ответить на любой вопрос, я не раздумывая признаю его разумным»[2].

Доподлинно неизвестно, был ли Алан Тьюринг знаком с трудами Айера или Дидро, но именно он вошёл в историю в качестве автора конкретной процедуры для определения способности машины мыслить. Сегодня она известна нам под названием «тест Тьюринга».

В работе «Вычислительные машины и разум» (1950) Тьюринг пишет:

Эта новая форма проблемы может быть описана с помощью игры, которую мы назовём «игрой в имитацию». В этой игре участвуют три человека: мужчина (A), женщина (В) и кто-нибудь, задающий вопросы (С), которым может быть лицо любого пола. Задающий вопросы отделён от двух других участников игры стенами комнаты, в которой он находится. Цель игры для задающего вопросы состоит в том, чтобы определить, кто из двух других участников игры является мужчиной (A), а кто — женщиной (В). Он знает их под обозначениями X и Y и в конце игры говорит либо: «X есть А, и Y есть В», либо: «X есть В, и Y есть А». Ему разрешается задавать вопросы такого, например, рода: С: «Попрошу X сообщить мне длину его (или её) волос». Допустим теперь, что в действительности X есть А. В таком случае А и должен давать ответ. Для А цель игры состоит в том, чтобы побудить С прийти к неверному заключению. Поэтому его ответ может быть, например, таким: «Мои волосы коротко острижены, а самые длинные пряди имеют около девяти дюймов в длину». Чтобы задающий вопросы не мог определить по голосу, кто из двух других участников игры мужчина, а кто — женщина, ответы на вопросы следовало бы давать в письменном виде или, ещё лучше, печатать на машинке. Идеальным случаем было бы телеграфное сообщение между комнатами, где находятся участники игры. Если же этого сделать нельзя, то ответы и вопросы может передавать какой-нибудь посредник. Цель игры для третьего игрока — женщины (В) — состоит в том, чтобы помочь задающему вопросы. Для неё, вероятно, лучшая стратегия — давать правдивые ответы. Она также может делать такие замечания, как: «Женщина — я, не слушайте его!», но этим она ничего не достигнет, так как мужчина тоже может делать подобные замечания. Поставим теперь вопрос: «Что произойдёт, если в этой игре вместо А будет участвовать машина?» Будет ли в этом случае задающий вопросы ошибаться столь же часто, как и в игре, где участниками являются только люди? Эти вопросы и заменят наш первоначальный вопрос «могут ли машины мыслить?»[3].

В некоторых источниках сообщается, что в основу процедуры, предложенной Тьюрингом, легла салонная «игра в имитацию», популярная в Викторианскую эпоху[4] и известная Тьюрингу с юности[5] (оставим здесь за скобками тот факт, что юность Тьюринга более чем на два десятилетия отстояла от Викторианской эпохи, — в конце концов, почему бы юношам в 1920-е не играть в некоторые викторианские игры?). В других источниках «игра в имитацию» упоминается просто как популярное времяпрепровождение на вечеринках[6]. Мне, однако, не удалось обнаружить ни одного упоминания подобной игры вне связи с тестом Тьюринга. Молодёжь Викторианской эпохи, конечно, знала толк в изощрённых забавах, иногда требовавших продемонстрировать искусство имитации. Например, при игре в «Придворные» (The Courtiers) один из гостей, выбранный королём или королевой, садился в центре комнаты, а остальные, исполнявшие роли придворных, должны были имитировать все его действия, сохраняя серьёзные лица. Если придворный улыбался или начинал смеяться, он выбывал из игры и должен был выполнить фант. Последний из гостей, продемонстрировавший наибольшую выдержку, становился новым монархом. Использование подобной процедуры в научных исследованиях, конечно, могло бы серьёзно разнообразить работу учёных, но, боюсь, надежд на это пока что немного.

Итак, Тьюринг предлагает игру с анонимным участником, который может быть либо машиной, либо человеком: взаимодействие осуществляется посредством телетайпа или любого иного способа, придающего сообщениям обезличенную форму. Тест считается успешно пройденным в случае, если машине удалось выдать себя за человека.

Отметим важную особенность теста Тьюринга: он предлагает чисто поведенческий критерий наличия интеллекта, не требующий анализа внутреннего строения объекта. Тьюринг отмечает, что мы приписываем интеллект другим людям, пользуясь именно этим критерием, ведь мы никак не можем залезть в сознание другого человека.

Тьюринг решительно отстаивает идею о том, что не существует принципиально непреодолимых препятствий на пути создания машины, способной пройти его тест, он последовательно приводит и опровергает девять аргументов против возможности создания такого искусственного интеллекта.

Вокруг теста Тьюринга, несмотря на прозрачность предложенного автором подхода, существует изрядное количество путаницы. Виноват в этом отчасти и сам Тьюринг, который в своей работе, по сути дела, описывает две несколько отличающиеся друг от друга процедуры. Кроме того, в 1951 г. в передаче на радио Би-би-си (BBC, British Broadcasting Corporation, Британская вещательная корпорация) Тьюринг предлагает третью формулировку теста[7].

Итак, путаница начинается со статьи 1950 г., в которой Тьюринг сначала описывает игру, в которой участвует женщина, пытающаяся своими ответами помочь задающему вопросы, а также мужчина, стремящийся выдать себя за женщину. Далее Тьюринг рассматривает возможность замены мужчины на машину. Получающаяся в результате процедура сегодня носит наименование «Оригинальный тест игры в имитацию» (Original Imitation Game Test, или сокращённо OIG).

В конце V части статьи Тьюринг ВНЕЗАПНО даёт несколько отличающееся описание процедуры: «Если взять только одну конкретную цифровую вычислительную машину Ц, то спрашивается: справедливо ли утверждение о том, что, изменяя ёмкость памяти этой машины, увеличивая скорость её действия и снабжая её подходящей программой, можно заставить Ц удовлетворительно исполнять роль А вигре в имитацию(причём роль В будет исполнять человек [man])?»

Лёгким движением руки «женщина» превратилась в «мужчину» или даже в «человека» вообще, как разумно предполагает переводчик на русский язык. Если мы согласимся с переводчиком, то полученный вариант процедуры (в котором машина стремится выдать себя за человека, а не за конкретно женщину, в то время как человек B старается помочь задающему вопросы) будет называться стандартным тестом Тьюринга (Standard Turing Test, STT). Конечно, возможна альтернативная интерпретация, в которой на месте женщины в игре оказывается мужчина A из оригинальной игры в имитацию, стремящийся, как и машина, выдать себя за женщину. В таком случае машина и мужчина будут соревноваться в искусстве выдачи себя за другого перед лицом задающего вопросы[8].

Из записи радиопередачи 1951 г. становится ясно, что Тьюринг всё-таки не делал различия между словами man и human. Версия теста, предложенная радиослушателям, по сути дела, повторяет STT с той лишь разницей, что на место человека, задающего вопросы, приходит жюри и целью машины становится обмануть существенную долю его участников.

Отдельный важный вопрос практической организации тестирования состоит в том, должен ли задающий вопросы знать, что один из его собеседников — машина. В оригинальном описании теста ничего не говорится об этом, а современные исследовательские стандарты предполагают использование в подобных экспериментах контроля и двойного слепого метода[9]. Словом, сегодня валидным вариантом теста Тьюринга считается версия STT с жюри, контрольной группой и двойным слепым методом проведения испытаний.

Рис. 2. Игра в имитацию и две различные версии теста Тьюринга из статьи 1950 г.

Наверное, самым известным возражением на предложенную Тьюрингом процедуру стал ответ философа Джона Сёрля, который предложил мысленный эксперимент, получивший название «китайской комнаты». Представим себе закрытую комнату, в которую передают вопросы, написанные на китайском языке, и из которой получают ответы, опять же написанные на китайском. В комнате находится человек, не говорящий по-китайски (для простоты далее будем считать, что это сам Джон Сёрль), который понимает английский язык и использует набор правил, написанных по-английски, с китайскими иероглифами, предназначенными для записи ответов. Таким образом, человек, пишущий вопросы по-китайски и получающий из комнаты ответы, может сделать вывод, что внутри комнаты находится некто, способный понимать китайский язык. Но, по условию задачи, это не так. Следовательно, процедура, построенная только на изучении коммуникативного поведения объекта, подобная тесту Тьюринга, приводит нас к неправильному умозаключению.

Вокруг аргумента Сёрля развернулась весьма масштабная полемика, различные нюансы которой весьма детально разобраны в статьях Пола Кокшотта «Бёттке, синтаксис и тест Тьюринга» (Boettke, Syntax and the Turing Test)[10] и Лоуренса Ландау «Философская ошибка Пенроуза» (Penrose’s Philosophical Error)[11]. Здесь мы рассмотрим только два из основных аргументов против мысленного эксперимента Сёрля.

Первый и наиболее известный из них получил название «системный аргумент». Он сводится к тому, что даже если сам Сёрль, в соответствии с условиями эксперимента, не понимает китайский язык, тем не менее систему, состоящую из набора правил и самого Сёрля, вполне можно охарактеризовать как понимающую китайский. Если мы посмотрим на человеческий мозг, то легко заметим, что он состоит из различных элементов. Можно ли считать, что каждая взятая по отдельности часть мозга разумна? Разумны ли взятые порознь отделы мозга? Нейроны? Атомы углерода?

Суть второго популярного возражения, аргумента «другие умы», состоит в следующем: если вы отказываете китайской комнате в понимании языка, то вы не можете быть уверенными в том, что кто-то, кроме вас, вообще что-то понимает, поскольку всё, с чем вы имеете дело, — это только поведение других людей.

В целом аргументы Сёрля и его сторонников, например Роджера Пенроуза, вызывают ассоциации с витализмом, то есть учением о наличии в живых организмах нематериальной сверхъестественной силы, управляющей жизненными явлениями, — «жизненной силы» (лат. vis vitalis) («души», «энтелехии», «археи» и проч.). Теория витализма постулирует, что процессы в биологических организмах зависят от этой силы и не могут быть объяснены с точки зрения физики, химии или биохимии. Когда-то виталисты утверждали, что органическую материю нельзя получить из неорганической. Затем, по мере прогресса в химии, границы «невозможного» постепенно стали сдвигаться, теперь уже невозможным объявлялось создание сложных органических соединений, а после успешного освоения их синтеза — создание живого организма. Теперь очередным «непреодолимым» рубежом стал человеческий разум, при этом роль жизненной силы у Сёрля выполняет «каузальная мощь человеческого мозга»[12], а у Пенроуза — квантовая природа сознания[13], [14].

Велико ли значение теста Тьюринга в наши дни? С одной стороны, искусственный интеллект, способный пройти тест Тьюринга или по крайней мере приблизиться к его прохождению, должен демонстрировать решение важных практических задач: понимание естественного языка и умение производить произвольные рассуждения. С другой стороны, некоторые современные исследователи в области искусственного интеллекта считают, что сегодня попытки создания системы для прохождения теста Тьюринга — это лишь отвлечение внимания от более плодотворных направлений исследований[15]. Действительно, тест Тьюринга не является сегодня областью, популярной в рамках академических или коммерческих проектов. Рассуждая о причинах такого положения дел, Рассел и Норвиг приводят забавную аналогию с историей создания самолёта: «В инженерных текстах по авиационной технике, — пишут они, — нигде не говорится о том, что целью этой области является „создание машин, способных летать подобно голубям настолько, чтобы они могли обмануть других голубей“»[16].

Сегодня тест Тьюринга относят к группе так называемых ИИ-полных (AI-complete) задач, то есть таких задач, сложность которых делает их решение эквивалентным созданию AGI[17]. К таким задачам обычно относят задачу понимания естественного языка, машинный перевод, решение тестов Бонгарда[18] и тому подобное. Важно заметить, что ИИ-полнота — неформальный термин, так как строгого доказательства необходимости AGI для решения всех этих задач пока что не существует.

Тьюринг стремился дать чёткий и понятный пример, необходимый в дискуссии о философии искусственного интеллекта. Как заметил Джон Маккарти: «Маловероятно, что [философия ИИ] окажет больший эффект на практические исследования в области ИИ, чем философия науки в целом — на саму науку»[19].

Впрочем, некоторое отношение к современной практике тест Тьюринга всё-таки имеет, в одном из хорошо всем известных вариантов. Наверняка вам не раз приходилось вводить цифры или буквы с картинок, чтобы доказать, что вы не робот. Подобного рода тесты получили название «кáпча»[20]. В 2013 г. каждый день пользователям во всём мире приходилось проходить подобные тесты примерно 320 млн раз[21]. Старт этому масштабному противостоянию снаряда и брони был дан в 1997 г.[22], и с тех пор тесты постоянно приходится усложнять из-за появления всё новых и новых систем ИИ, способных справиться с их прохождением. Позже мы ещё несколько раз вернёмся к тесту Тьюринга — например, когда будем обсуждать прогресс в области обработки машинами естественного языка, а сейчас перейдём к не менее животрепещущей теме — машинному обучению.

  1. Айер А. Д. (2010). Язык, истина и логика / Пер. с англ. В. А. Суровцева, Н. А. Тарабанова. Под общей ред. В. А. Суровцева. — М: «Канон+» РООИ «Реабилитация».
  2. Diderot D. (2007). Pensees Philosophiques, Addition aux Pensees Philosophiques[Flammarion], p. 68.
  3. Тьюринг А. (1960). Может ли машина мыслить? С приложением статьи Дж. фон Неймана «Общая и логическая теория автоматов» / Пер. с англ. Ю. А. Данилова, редакция и предисловие проф. С. А. Яновской. М.: Государственное издательство физико-математической литературы.
  4. Evans R., Collins H. M. (2010). Interactional Expertise and the Imitation Game / Gorman M. E. (2010). Trading Zones and Interactional Expertise: Creating New Kinds of Collaboration. Cambridge: MIT Press, pp. 53—70.
  5. Hollings K. (2013). "There must be something wrong with this, Sally…" Faults, Lapses and Imperfections in the Sex Lives of Machines / Leonardo Electronic Almanac, Vol. 19 Iss. 4 // https://www.leonardo.info/journal-issue/leonardo-electronic-almanac/19/4
  6. Pruchnic J. (2013). Rhetoric and Ethics in the Cybernetic Age: The Transhuman Condition. Routledge // https://books.google.ru/books?id=sUttAAAAQBAJ
  7. Turing A. (1952). Can Automatic Calculating Machines be Said to Think? / Copeland J. B. (2004). The Essential Turing: The ideas that gave birth to the computer age. Clarendon Press // https://books.google.ru/books?id=VlC5MkVIwqkC
  8. Sterrett S. G. (2000). Turing's Two Test of Intelligence / Minds and Machines, Vol. 10, Iss. 4, p. 541 // https://doi.org/10.1023/A:1011242120015
  9. * Двойной слепой метод — подход, когда ни задающий вопросы, ни взаимодействующие с ним организаторы сами не знают, кто из участников теста является машиной и есть ли вообще машина среди участников теста; то есть задача для жюри должна быть сформулирована следующим образом: «Выберите один из вариантов: только испытуемый 1 является машиной, только испытуемый 2 является машиной, оба испытуемых являются машинами, оба испытуемых являются людьми».
  10. Кокшотт У. П., Микаэльсон Г., Коттрел А. (2017). Бёттке, синтаксис и тест Тьюринга / Пер. с англ. Горлова А. В., Маркова С. С // https://22century.ru/popular-science-publications/boettke-syntax-and-the-turing-test
  11. Landau L. J. (1997). Penrose's Philosophical Error / Landau L. J., Taylor J. G. (1998). Concepts for Neural Networks. Perspectives in Neural Computing. Springer, London // https://doi.org/10.1007/978-1-4471-3427-5_7
  12. * Способность мозга находить причинно-следственные связи.
  13. ** Представление о том, что в основе разума лежат квантовомеханические эффекты, принципиально невоспроизводимые средствами классической механики.
  14. The Emperor’s New Mind: Concerning Computers, Minds and the Laws of Physic, Oxford University Press.
  15. Shieber S. M. (1994). Lessons from a Restricted Turing Test / Communications of the ACM, Vol. 37, Iss. 6, pp. 70—78 // https://doi.org/10.1145/175208.175217
  16. Russell S. J., Norvig P. (2016). Artificial Intelligence: A Modern Approach. Pearson // https://books.google.ru/books?id=XS9CjwEACAAJ
  17. Mallery J. C. (1988). Thinking About Foreign Policy: Finding an Appropriate Role for Artificially Intelligent Computers / The 1988 Annual Meeting of the International Studies Association., St. Louis, MO.
  18. *** Наборы визуальных тестов для оценки способности системы находить простые закономерности, предложенные советским учёным Михаилом Бонгардом.
  19. McCarthy J. (1996). “The Philosophy of Artificial Intelligence”, What has AI in Common with Philosophy?
  20. **** CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) — полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей.
  21. Луис фон Ан. Массовое онлайн-сотрудничество // Конференция TED, 2011.
  22. См. патент Method and system for discriminating a human action from a computerized action. 2004-03-01 (https://patents.google.com/patent/US20050114705A1/en).

Loading comments...