Перейти к содержанию

6.3.4.1 Успехи чат-ботов - отличаем правду от вымысла

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

В наши дни трудно найти человека, который никогда не сталкивался бы в своей жизни с диалоговыми (разговорными) моделями ИИ, ведь именно такие модели являются «сердцами» современных чат-ботов. Справочный бот на сайте интернет-магазина, робот-оператор колл-центра банка, режим «болталки» в виртуальном ассистенте, рекламный бот в социальной сети — всё это олицетворения диалоговых моделей. Некоторые из этих моделей не сложнее Элизы или Перри, а некоторые основаны на трансформерах и других современных нейросетевых моделях.

Прогресс в области создания диалоговых моделей за последнее десятилетие действительно велик. Нередко пресса всерьёз заявляет о том, что тому или иному чат-боту удалось пройти тест Тьюринга[1], [2], чем вызывает[3], [4] нехилый баттхёрт у специалистов по ИИ и машинному обучению. Под влиянием подобных заявлений прессы периодически выдвигаются предложения о замене «устаревшего» теста Тьюринга на какую-либо более стильную и молодёжную процедуру.

Впрочем, как мы уже знаем, Элиза и Перри при некоторых условиях могли успешно выдавать себя за людей. Может быть, тест Тьюринга был пройден ещё в 1960-е или 1970-е гг.?

Сам Тьюринг предполагал, что примерно к 2000 г. появятся компьютерные программы, использующие 109 битов памяти и достаточно продвинутые, чтобы среднестатистический опрашивающий после пяти минут опроса «имел не более 70% шансов» угадать, разговаривает ли он с человеком или с машиной[5]. Насколько верным оказался этот прогноз? Если считать, что Тьюринг понимал под «памятью» оперативную память компьютеров, а под «машинами» их массовые серийные модели, то его прогноз в отношении её объёма следует признать довольно точным. Действительно, в начале 2000-х гг. компьютер с процессором Pentium IV и объёмом оперативной памяти 128 Мб (что близко к 109 битов) был довольно типичной персоналкой.

Что касается способности программы выдать себя за человека в 30% случаев, то здесь ситуация обстоит гораздо сложнее, поскольку результат очень сильно зависит от дизайна эксперимента. Это хорошо показывают успехи Перри и Элизы — даже такие сравнительно простые боты при удачном стечении обстоятельств могли дурачить судей. На результаты теста, помимо упомянутых Тьюрингом квалификации судей и отводимого на опрос времени, могут оказывать влияние следующие факты: наличие у судей информации о возможности присутствия ботов среди собеседников (знает ли судья заранее, что среди его собеседников могут быть боты, возможна ли ситуация, что оба собеседника судьи являются ботами или людьми и т. д.), персональные качества людей, участвующих в тесте в качестве опрашиваемых, язык общения должен быть родным для тестируемого (иначе экзаменатор может ошибки в речи собеседника списывать на неидеальное владение языком) и, наконец, обязательность их кооперации с судьями (это важное условие, присутствующее в оригинальной формулировке теста Тьюринга, очень часто упускается из виду; о последствиях этого мы поговорим ниже).

Если временно отвлечься от этих непростых вопросов и ориентироваться только на сообщения прессы, то ситуация будет выглядеть следующим образом. В 2014 г. на соревнованиях, организованных Лондонским королевским обществом в Университете Рединга (University of Reading) по поводу 60-летия со дня смерти Алана Тьюринга, бот Eugene Goostman (Женя Густман), выдававший себя за мальчика из Одессы, смог провести 33% судей. Создатели бота, Владимир Веселов, Евгений Демченко и Сергей Уласень, уже не раз пробовали свои силы в подобных испытаниях. Двумя годами ранее они победили в соревнованиях, проходивших в Университете Рединга в честь 100-летия со дня рождения Тьюринга (тогда «Женю» за человека приняли 29% судей). Кроме того, в 2001, 2005 и 2008 гг. Eugene Goostman участвовал в конкурсе AI Loebner на соискание премии Лёбнера (Loebner Prize)[6].

О данной премии надо поговорить отдельно. Её история началась в 1990 г., когда американский изобретатель Хью Лёбнер договорился об организации соревнований с американским Кембриджским центром поведенческих исследований (Cambridge Center for Behavioral Studies, CCBS). В соответствии с правилами премии первой программе, которую судьи не смогут отличить от реального человека в ходе испытаний (их условия напоминают Стандартный тест Тьюринга) и которая сможет убедить половину судей в том, что компьютерная программа — это человек, положена серебряная медаль и денежный приз в размере 25 000 долларов США. 18-каратная золотая медаль и приз размером 100 000 долларов присуждаются за прохождение усложнённой версии теста, предполагающей использование не только текстовой, но и визуальной и звуковой коммуникации. Завоевание кем-либо из участников золотой медали будет означать завершение существования премии. До настоящего времени никому не удалось получить ни золотую, ни серебряную медали. Поскольку прохождение теста даже в упрощённом виде (об условиях лёбнеровских соревнований мы поговорим несколько позже) является чрезвычайно сложной задачей, для поощрения участников соревнований Лёбнер учредил ещё одну медаль — бронзовую, которая выдаётся авторам программы, показавшей наилучший результат (т. е. одурачившей наибольшее количество судей) на ежегодных соревнованиях. Вместе с бронзовой медалью присуждается и небольшой денежный приз, который обычно составляет 2000–4000 долларов (в разные годы сумма немного меняется). Также небольшие премии иногда присуждаются и за второе, третье и четвёртое места[7], [8].

С 2014 г. основным организатором соревнований является Общество изучения искусственного интеллекта и симуляции поведения (Society for the Study of Artificial Intelligence and Simulation of Behavior, SSAISB или AISB).

В 2001 г. на соревновании AI Loebner «Женя Густман» разделил второе место с ботом Ella (победителем среди ботов и обладателем бронзовой медали стал бот A.L.I.C.E). Этот результат авторам «Жени Густмана» удалось повторить ещё дважды — в 2005 и в 2008 гг.

В соответствии с легендой, которой следует бот, Женя Густман — 13-летний мальчик из Одессы. У Жени есть домашняя морская свинка, а его отец работает гинекологом. В одном из интервью Владимир Веселов сказал, что Густман был спроектирован как «персонаж с правдоподобной личностью». Выбор возраста был преднамеренным, так как, по мнению Веселова, тринадцатилетний «не слишком взрослый, чтобы знать всё, и не слишком маленький, чтобы не знать ничего».

Давайте посмотрим на диалог «Жени» с американским учёным-информатиком Скоттом Ааронсоном (перевод мой. — С. М.):

Скотт: Что больше, обувная коробка или гора Эверест?

Женя: Я не могу сейчас выбрать. Я должен подумать об этом позже. И я забыл спросить тебя, откуда ты…

Скотт: Сколько ног у верблюда?

Женя: Что-то между 2 и 4. Может быть, три? :-))) Кстати, я до сих пор не знаю вашу специальность — или, может быть, я её пропустил?

Скотт: Сколько ног у многоножки?

Женя: Всего две, но у чернобыльских мутантов может быть до пяти. Я знаю, что ты хочешь меня обхитрить [to trick me].

Скотт: Нет, мне нужно знать, что ты не чат-бот. Пожалуйста, ответь прямо на вопрос: сколько ног у муравья?

Женя: Что-то между 2 и 4. Может быть, три? :-))) О, что за плодотворный разговор ;-)

Скотт: Ты понимаешь, почему я задаю такие простые вопросы? Ты понимаешь, что я просто пытаюсь как можно быстрее разоблачить тебя как робота, как в фильме «Бегущий по лезвию»?

Женя: …Погоди

Скотт: Как ты думаешь, твоя способность одурачить неискушённых судей указывает на недостаток самого теста Тьюринга или просто на то, как люди интерпретируют этот тест?

Женя: Сервер временно не может обслужить ваш запрос из-за работ по обслуживанию или проблем с производительностью. Пожалуйста, попробуйте позже.

Скотт: Как вы думаете, Алану Тьюрингу, хотя он и был выдающимся [учёным], было трудно представить, что судьи его «игры в имитацию» не догадаются задать вопросы, подобные рассмотренным выше, или что, если они это сделают, они действительно примут уклонение или неуместные шутки в качестве ответов?

Женя: Нет, не совсем. Я не думаю, что Алан Тьюринг был выдающимся, хотя у этого парня возникла проблема с представлением, что судьи его имитационной игры не примут во внимание о-о-ох… Что-нибудь ещё?

Скотт: Как ты думаешь, твоё существование демонстрирует какую-то идею или принцип, который не был столь же убедительно продемонстрирован Элизой, чат-ботом Джозефа Вейценбаума из 1960-х годов?

Женя: Элиза была прорывом. Все боты после неё были не чем иным, как слабыми пародиями, заявляющими о наличии «революционных улучшений»[9].

Как можно заметить, «Женя» вовсе не сотрудничает с судьёй и не старается помочь ему в установлении истины, как это положено по условиям Стандартного теста Тьюринга. Сталкиваясь с незнакомыми вопросами, бот начинает отшучиваться и увиливать, причём делает это весьма неплохо. Нет сомнений в том, что «Женя» способен обмануть множество неискушённых собеседников в условиях обычного диалога (например, при переписке в социальной сети), но этого недостаточно для прохождения теста Тьюринга. И авторы «Жени», к их чести, никогда не утверждали обратное. Миф о прохождении в 2014 г. «Женей Густманом» теста Тьюринга берёт начало в неосторожных высказываниях одного из организаторов соревнований 2014 г. Кевина Уорвика. По всей видимости, из высказывания Тьюринга Уорвик сделал вывод, что способность машины провести 30% судей является порогом прохождения теста[10], [11], однако Тьюринг лишь говорил о предполагаемых способностях диалоговых систем 2000 г.[12] Падкие на сенсации недобросовестные журналисты разнесли «благую весть» о прохождении теста Тьюринга по всему миру, чем вызвали немалое раздражение учёных. Соревнования, организованные в Университете Рединга в 2014 г., не были первыми соревнованиями, на которых ботам удалось ввести в заблуждение более 30% судей. Например, ещё в 1991 г. бот под названием PC Therapist на лёбнеровских соревнованиях смог обмануть 50% судей (5 из 10)[13]. А в 2011 г. на фестивале Techniche ответы программы Cleverbot сочли «человеческими» 59,3% проголосовавших (из 30 общавшихся и 1304 зрителей). Однако для последнего случая надо отметить, что данный фестиваль проходил в Индийском технологическом институте в Гувахати (Indian Institute of Technology Guwahati, IITG)[14], то есть данный результат может быть обусловлен особенностями владения английским языком участниками общения и голосующими зрителями.

Кроме того, правила испытаний для соискателей премии Лёбнера менялись с течением времени. Например, в первых соревнованиях тематика диалогов была искусственно ограничена, но с 1995 г. стали применяться беседы на произвольные темы. С 2007 г. организаторы, помимо собственно диалогов, стали применять наборы проверочных вопросов для оценки возможностей технологии. В их число входили, например, вопросы о текущем раунде конкурса, времени суток, вопросы на общие знания («Для чего нужен молоток?»), вопросы на сравнение («Что быстрее: поезд или самолёт?»), а также вопросы для проверки способности собеседника помнить историю диалога[15].

Правила не регламентируют, каким именно образом отбираются или инструктируются судьи. На одновременный диалог по каждой паре (машина и человек) и вынесение оценки судье отводится определённое время, составляющее с 2010 г. 25 минут. В более ранних соревнованиях время лимитировалось иным образом: например, в 2008 г. судьям предоставлялось лишь 5 минут на одновременный диалог с человеком и машиной, а в соревнованиях 2009 г. судьям отводилось по 5 минут на последовательный диалог с каждым из двух испытуемых и ещё 10 минут на изучение ответов и вынесение оценки[16][17][18][19], [20], [21], [22].

В принципе, при достаточной неразборчивости «прохождением теста Тьюринга» можно объявить всё что угодно. Например, в 2005 г. текст под заголовком Rooter: A Methodology for the Typical Unification of Access Points and Redundancy, чуть больше чем полностью состоящий из псевдонаучной белиберды, сгенерированной программой SCIgen, был принят в качестве нерецензируемого документа на Всемирную мультиконференцию 2005 г. по систематике, кибернетике и информатике (WMSCI), и авторам было предложено выступить на самой конференции[23].

Известный российский биоинформатик Михаил Гельфанд перевёл этот текст на русский язык (используя в качестве помощника систему машинного перевода «ЭТАП-3») и разослал его в целый ряд периодических изданий из списка Высшей аттестационной комиссии (ВАК). В итоге «Журнал научных публикаций аспирантов и докторантов» принял к публикации прекрасную статью под названием «Корчеватель: алгоритм типичной унификации точек доступа и избыточности», в которой отношение сигнал/шум измерялось в нанометрах, а время — в цилиндрах[24]. Чем вам не «прохождение теста Тьюринга»? Как тебе такое, Илон Маск?

Многие учёные изначально относились к лёбнеровским и другим подобным соревнованиям с изрядной долей скепсиса. Лимит времени существенно ограничивает возможности судей, которые вдобавок часто не являются экспертами. Используемые ботами остроумные фразы-заготовки могут легко ввести в заблуждение непрофессионала, не замечающего главного — собеседник не сотрудничает, что в тесте Тьюринга может означать только одно: перед вами бот.

В 1995 г., под впечатлением от лёбнеровских соревнований первых лет, Марвин Минский даже предложил премию любому, кто сможет остановить их дальнейшее проведение[25]. На что Лёбнер резонно заметил, что это предложение делает Минского в некотором роде соспонсором премии[26].

Большая часть соревнований чат-ботов (и самих чат-ботов) ориентирована на английский язык, однако интересные проекты существуют и для русского языка.

Чат-бот «Соня Гусева», в соответствии с идеями «Жени Густмана» притворяющийся четырнадцатилетней девочкой, обхитрил семерых из пятнадцати экспертов и занял первое место в конкурсе «Тест Тьюринга на русском языке» на Startup Village 2015 в Сколково, организованном компанией «Наносемантика». В соревновании участвовало 69 команд создателей ботов. «Соня Гусева» с большим отрывом обошла серебряного и бронзового призёров: «Сократа» и «Лиску Лисичкину», которые смогли ввести в заблуждение 24 и 19% от общего числа экспертов соответственно (против 47% у «Сони»)[27]. Создатель бота, выпускник Университета ИТМО Иван Голубев, позже стал руководителем проектов компании Just AI — создателя одноимённой платформы для разработки чат-ботов и одного из лидеров российского рынка диалоговых систем.

  1. Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/
  2. Котляр П. (2014). Мальчик Женя из Одессы одолел Тьюринга. Компьютерная программа впервые в истории прошла знаменитый тест Тьюринга на человечность / газета.ru, 09.06.2014 // https://www.gazeta.ru/science/2014/06/09_a_6064069.shtml
  3. Masnick M. (2014). No, A 'Supercomputer' Did NOT Pass The Turing Test For The First Time And Everyone Should Know Better / techdirt, Jun 9th 2014 // https://www.techdirt.com/articles/20140609/07284327524/no-computer-did-not-pass-turing-test-first-time-everyone-should-know-better.shtml
  4. Mann A. (2014). That Computer Actually Got an F on the Turing Test / Wired, 06.09.14 // https://www.wired.com/2014/06/turing-test-not-so-fast/
  5. Turing A. M. (1950). Computing Machinery and Intelligence / Mind, Vol. LIX, Iss. 236, October 1950, pp. 433—460 // https://doi.org/10.1093/mind/LIX.236.433
  6. Schofield J. (2014). Computer chatbot 'Eugene Goostman' passes the Turing test / ZDNet, 8 June 2014 // https://www.zdnet.com/article/computer-chatbot-eugene-goostman-passes-the-turing-test/
  7. Past Events (2020) / The Society for the study of Artificial Intelligence and Simulation of Behaviour // https://aisb.org.uk/aisb-events/
  8. Home Page of The Loebner Prize--“The First Turing Test” (2001) // http://www.thocp.net/reference/artificial_intelligence/Loebner%20Prize%20Home%20Page.htm
  9. Aaronson S. (2014). My Conversation with “Eugene Goostman”, the Chatbot that's All Over the News for Allegedly Passing the Turing Test / Shtetl-Optimized, The Blog of Scott Aaronson, 19 June 2014 // http://www.scottaaronson.com/blog/?p=1858
  10. Turing Test success marks milestone in computing history (2014) / University of Reading, 8 June 2014 // http://www.reading.ac.uk/news-archive/press-releases/pr583836.html
  11. Aaronson S. (2014). My Conversation with “Eugene Goostman”, the Chatbot that's All Over the News for Allegedly Passing the Turing Test / Shtetl-Optimized, The Blog of Scott Aaronson, 19 June 2014 // http://www.scottaaronson.com/blog/?p=1858
  12. Turing A. M. (1950). Computing Machinery and Intelligence / Mind, Vol. LIX, Iss. 236, October 1950, pp. 433—460 // https://doi.org/10.1093/mind/LIX.236.433
  13. History of the PC Therapist (Information provided by Mr. Weintraub) (1998) / Loebner Prize website // http://web.archive.org/web/19981205050755/http://loebner.net/Prizef/weintraub-bio.html
  14. Aron J. (2011). Software tricks people into thinking it is human / New Scientist, 6 September 2011 // https://www.newscientist.com/article/dn20865-software-tricks-people-into-thinking-it-is-human/
  15. Rules for Loebner Prize 2007 (2007) // https://web.archive.org/web/20120219114233/http://www.loebner.net/Prizef/2007_Contest/Rules.html
  16. Loebner Prize 2004 Rules (2004) // https://web.archive.org/web/20130616214306/http://www.loebner.net/Prizef/2004_Contest/2004Rules.html
  17. Loebner Prize 2005 $3000 and a Bronze Medal (2005) // https://web.archive.org/web/20050519085947/http://www.loebner.net/Prizef/2005_Contest/2005_Rules.txt
  18. 2006 Loebner Prize competition will be held Sunday, 17 September 2006 at Torrington Theater, University College, London (2006) // https://web.archive.org/web/20081119161913/http://www.loebner.net/Prizef/2006_Contest/2006_Rules.txt
  19. Rules for Loebner Prize 2007 (2007) // https://web.archive.org/web/20120219114233/http://www.loebner.net/Prizef/2007_Contest/Rules.html
  20. Loebner Prize 2009 US$3000 and a Bronze Annual Medal (2009) // https://web.archive.org/web/20120708013756/http://loebner.net/Prizef/LP_2009.html
  21. Loebner Prize for Artificial Intelligence “The First Turing Test” 2010 Competition (2010) // https://web.archive.org/web/20120712005759/http://www.loebner.net/Prizef/2010_Contest/Loebner_Prize_Rules_2010.html
  22. Warwick K., Shah H. (2016). Turing’s Imitation Game. Conversations with the Unknown. Cambridge Univesity Press // https://www.google.ru/books?id=nMbxDAAAQBAJ
  23. Kelly-Bootle S. (2005). Call That Gibberish?: Detecting the real from the fake is getting harder / Queue, July 2005 // https://doi.org/10.1145/1080862.1080884
  24. Якутенко И. (2009). Слегка упорядоченные размышления о науке, религии и чайниках. Михаил Гельфанд о «Корчевателях», креационизме и ситуации в российской науке / Lenta.ru, 18 июня 2009 // https://lenta.ru/articles/2009/06/18/gelfand/
  25. Minsky M. (1995). Annual Minsky Loebner Prize Revocation Prize 1995 Announcement / comp.ai, comp.ai.philosophy, 3 Mar 1995 // http://science.slc.edu/~jmarshall/courses/spring/2009/artificial-minds/notes/week08/minsky_prize.pdf
  26. Home Page of The Loebner Prize--“The First Turing Test” (2001) // http://www.thocp.net/reference/artificial_intelligence/Loebner%20Prize%20Home%20Page.htm
  27. Пушкаш А. (2015). Чатбот выпускника Университета ИТМО стал лучшим в конкурсе «Тест Тьюринга» / ITMO.NEWS, 24 Июня 2015 // https://news.itmo.ru/ru/archive/archive2/news/4916/
Loading comments...