Перейти к содержанию

7.4 Цифровой тайный суд и другие проблемы алгоритмического общества

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Система из трёх провидцев своими корнями уходит в компьютерную практику середины нашего века. Как в то время проверяли результаты компьютерных расчётов? С помощью второго, совершенно идентичного компьютера, в который вводились те же исходные данные. Но двух компьютеров не всегда достаточно. Если полученные от них результаты не сходятся, невозможно определить априори, какой из двух ответов верный. Решение этой проблемы базируется на статистическом методе и состоит в том, что для проверки результатов первых двух компьютеров используется третий. Таким способом получают так называемый рапорт большинства, или РБ. Если результаты двух из этой тройки компьютеров совпадают, именно этот ответ и считается верным, а второй — неверным. Согласно статистическим данным, крайне маловероятно, что два компьютера выдадут один и тот же неверный результат…

Филип Дик. Особое мнение[1]

Пока философы ведут споры о проблеме сверхразума, наш мир незаметно вступил в эру прикладного ИИ — всё больше и больше решений в обществе принимается при помощи различных математических моделей, созданных обычно при помощи методов машинного обучения. Какие специфические проблемы присущи этому алгоритмическому миру, если, конечно, они вообще есть? Этой проблемой в последние годы занимается ряд исследователей, имена которых, к сожалению, не столь широко известны, как имена Илона Маска или Ника Бострома. Фундаментальная работа по систематизации подводных камней алгоритмического общества была осуществлена американской исследовательницей Кэти О’Нил в книге, которая в русском переводе получила название «Убийственные большие данные. Как математика превратилась в оружие массового поражения» (Weapons of Math Destruction: How big data increases inequality and threatens democracy[2], дословный перевод: «Средства математического поражения: как большие данные увеличивают неравенство и угрожают демократии»[3]).

Пройдёмся по проблемам, на которые обращает внимание О’Нил.

1. Проблема закрытости. Положим, что вы представитель какой-либо массовой профессии. В момент, когда вы устраиваетесь на работу, ваша анкета, скорее всего, будет оцениваться при помощи математической модели, призванной отсеять заведомо неподходящих кандидатов. С тем же самым вы столкнётесь, подавая заявку на кредит и во многих других ситуациях. Однако такая система может содержать в себе определённые дефекты. Кроме того, дефекты могут содержать данные, введённые в систему, а также данные о вас, полученные из других информационных систем (например, клиенты российских банков нередко сталкиваются с ошибочными блокировками своих счетов из-за некорректного сопоставления их с лицами, в отношении которых суд принял решение о блокировке). Ввиду вышеизложенного принятое моделью решение вполне может оказаться ошибочным.

Поскольку подобные модели широко используются в весьма важных областях, то по силе влияния на жизнь человека решение такой модели может быть вполне сопоставимо с вердиктом суда. В исследовании профессора Бруклинской школы права (Brooklyn Law School) Фрэнка Паскуале эта проблема названа проблемой «цифрового тайного суда» [Digital star chamber][4], [5]. Паскуале детально анализирует её в своей книге «Общество чёрного ящика: секретные алгоритмы, которые контролируют деньги и информацию» (The Black Box Society: The Secret Algorithms That Control Money and Information»)[6], приводя показательные примеры.

Например, бывший водитель Uber по имени Мансур дал весьма пугающее описание своих взаимоотношений с работодателем. Вначале компания пыталась убедить его взять кредит на покупку нового автомобиля под очень высокий процент, а затем она неожиданно стала снимать в свою пользу всё большую часть дохода водителя. Но самым возмутительным Мансуру показалось то, что Uber может прекратить работу с ним, если его рейтинг окажется ниже отметки 4,7 (что может случиться, если несколько пассажиров поставят ему минимальную оценку). При этом подобное решение никак нельзя будет оспорить, и даже личное общение с сотрудниками Uber осуществить невозможно: все коммуникации производятся при помощи автоматических текстовых сообщений и электронных писем.

История Мансура по сути лишь иллюстрирует давние тенденции в области кредита и занятости, и она ни в коем случае не уникальна. Интернет-магазины живут в постоянном ужасе перед «смертной казнью Google» — внезапным, загадочным падением в рейтинге поисковых систем, в случае если они сделали нечто, что алгоритмы Google расценили как мошенничество. В США соискатели работы в Walmart’е и других крупных компаниях проходят некие «личностные тесты», которые затем обрабатываются неизвестными им алгоритмами с неведомым результатом. «Белые воротнички» также сталкиваются с программами для сортировки резюме, способными занизить или полностью проигнорировать квалификацию кандидата. Например, один алгоритмический анализатор резюме решил, что все 29 000 людей, претендовавших на «более-менее стандартную инженерную должность», недостаточно квалифицированны.

Практика показала, что «цифровой тайный суд» вполне может привести к реальным судебным приговорам и даже смертям людей. Например, на протяжении почти двух десятилетий сотрудники британской почтовой компании Post Office использовали для учёта продаж систему под названием Horizon. Из-за допущенных при её разработке ошибок некоторые расчёты осуществлялись неправильно, вследствие чего возникали мнимые недостачи на десятки тысяч фунтов. В итоге за несуществующие растраты были осуждены десятки сотрудников компании! Когда истинное положение вещей всё же выплыло на поверхность, было отменено 39 судебных приговоров, а компания Post Office выплатила компенсации 555 заявителям. Случай Horizon стал самой большой судебной ошибкой в истории Великобритании. Невинно осуждённым сотрудникам был нанесён огромный ущерб. Многие из них утратили сбережения, лишились возможности трудоустройства на престижную работу, оказались за решёткой, пережили распад семьи, а один из сотрудников, узнав, что за ним числится недостача в 100 000 фунтов, покончил с собой[7], [8], [9].

Как видно, проблема «цифрового тайного суда» весьма актуальна, и никто не защищён от того, что в отношении него цифровой моделью будет принято какое-либо серьёзное решение. Однако если в случае обычного суда у человека есть право на состязательный процесс, на получение квалифицированной юридической помощи, на доступ к доказательствам, то в описанных выше случаях ничего подобного невозможно. Модель является собственностью компании, и человек не имеет права ни узнать причину отказа, ни проверить принятое решение на наличие ошибок, ни даже выяснить, какие именно данные о нём были приняты в расчёт. Всё, что связано с работой алгоритма, полностью закрыто от того, в отношении кого этот алгоритм принимает решение. Нередко параметры таких алгоритмов относятся к числу самых охраняемых тайн коммерческих организаций.

2. С проблемой закрытости связана вторая важная проблема — отсутствие обратной связи. Получив отказ на свою заявку, вы не знаете, что именно необходимо сделать, чтобы избежать повторного отказа. Одну женщину частный брокер данных ложно обвинил в том, что она продаёт метамфетамин, и той потребовались годы, чтобы исправить запись, — годы, в течение которых домовладельцы и банки отказывали ей в жилье и кредитах. Ситуация с государственными базами данных может быть ещё хуже: в США, например, репутация невинных людей может пострадать из-за попадания в отчёты о подозрительной деятельности или неточных записей об арестах. Этой проблеме много лет, и она пока так и не решена. Аппетит к данным как государственных, так и рыночных структур означает, что недостоверные записи могут распространяться довольно быстро. Из-за того что причины отказов не анализируются, разработчики моделей также лишены обратной связи. В результате ошибки в моделях и данных могут существовать годами, нанося ущерб как людям, так и самим владельцам моделей. Разумеется, проблема отсутствия обратной связи существовала в бюрократических системах задолго до появления вычислительной техники и основанного на ней «алгоритмического общества», но увеличение объёмов собираемых и обрабатываемых государством и корпорациями данных о людях приводит к потенциальному росту проблем, падающих на каждого отдельно взятого индивида. Системы, ориентированные в первую очередь на обработку типовых случаев, нередко дают сбои, сталкиваясь с более редкими ситуациями. При этом значения метрик, используемых для управления развитием этих систем, часто весьма обманчивы. Система, которая успешно решает мелкие проблемы 99% людей, выглядит на первый взгляд довольно привлекательно, в то время как за скобками могут оставаться гигантские проблемы, которые она создаёт оставшемуся 1%.

3. Модели способны вбирать в себя предрассудки. В то время как большинство сторонников конфиденциальности сосредоточились на вопросе сбора данных, угроза, исходящая от бездумного, плохого или дискриминационного анализа вполне может быть сильнее. Представьте себе готовящий проекты судебных решений искусственный интеллект, обученный на решениях судьи-расиста. Или модель, предназначенную для сортировки анкет кандидатов, натренированную на их оценке кадровиком, считающим женщин существами второго сорта. Опасность таких моделей не только в том, что они, подобно людям, будут обладать предрассудками, но ещё и в том, что при отсутствии должного контроля они способны тиражировать эти предрассудки в огромных масштабах.

Причины, по которым модели могут приобретать те или иные предрассудки, могут быть и не столь очевидными, как в случае приведённых выше примеров. В 2017 г. внимание общественности привлекла диссертация Джой Буоламвини, аспирантки из MIT Media Lab, под названием «Оттенки гендера: интерсекциональная фенотипическая и демографическая оценка датасетов лиц и гендерных классификаторов» (Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers)[10]. В своём исследовании Буоламвини использовала внушительный набор фотографий для анализа способности коммерческих библиотек (от IBM, Microsoft и Face++) распознавать лица людей в зависимости от их пола и цвета кожи. Выяснилось, что точность распознавания для женских лиц ниже, чем для мужских, а для лиц людей с более тёмными оттенками кожи ниже, чем для лиц людей с более светлой кожей. Причём проблема наблюдалась со всеми тремя библиотеками, а разрыв в точности распознавания между когортами «светлокожие мужчины» и «темнокожие женщины» составлял от 20,8 до 34,4 процентного пункта. Написанная годом позже статья Буоламвини и её коллеги Тимнит Гебру под названием «Оттенки гендера: различия в точности коммерческой гендерной классификации» (Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification)[11] вызвала отклик у IBM и Microsoft, которые произвели доработки своего программного обеспечения.

Дефекты, подобные выявленным в исследовании Буоламвини, могут легко возникать в результате несбалансированности обучающих датасетов. Если в датасете лиц содержится недостаточное количество фотографий людей с некоторым оттенком кожи, то свёрточная нейронная сеть, обученная на этих данных, будет чаще ошибаться, встречаясь с такими же типами лиц в процессе использования. Поскольку в настоящее время активно внедряются различные сервисы на основе систем распознавания лиц (например, системы биометрической аутентификации на пользовательских устройствах, кредитоматы или системы автоматической регистрации в аэропортах), такие перекосы в работе моделей могут приводить к негативным последствиям. Более поздние исследования Буоламвини выявили наличие сходных проблем и в системах распознавания речи.

Буоламвини основала программу «Лига алгоритмической справедливости» (Algorithmic Justice League), направленную ​​на выявление предвзятости в коде, которая может привести к дискриминации в отношении недопредставленных групп.

4. Проблема чрезмерного доверия моделям. На заре компьютерной эры люди часто не доверяли прогнозам, построенным машинами на основе применения статистических моделей. Это нередко приводило к курьёзным последствиям. Наверное, самый известный случай — это события, произошедшие в ночь с 3 на 4 ноября 1952 г., когда компьютер UNIVAC был запрограммирован для предсказания результатов выборов президента США, на которых в борьбе сошлись Эдлай Стивенсон и Дуайт Эйзенхауэр. Телекомпания CBS должна была транслировать этот эксперимент, и её тележурналист Уолтер Кронкайт так описал подготовку к нему: «Машина должна предсказывать результаты выборов каждый час, базируясь на результатах за те же периоды времени в ночь выборов 1944 и 1948 годов. Учёные, которых мы привыкли называть длинноволосыми [long hairs], работали над сопоставлением фактов [с этими предсказаниями] последние два или три месяца». Но в конце речи он сделал оговорку: «На самом деле, мы не слишком зависим от этой машины. Это может оказаться и второстепенным шоу, мы не знаем, а потом опять же… для некоторых людей оно может оказаться очень уникальным и значимым»[12], [13].

По всей видимости, для того, чтобы ещё больше не зависеть от машины, находящейся в телестудии, сама машина была заменена макетом. Сделка, в соответствии с которой телекомпания CBS получила для демонстрации поддельный UNIVAC (настоящая машина находилась на другом конце линии связи — в Филадельфии), появилась из просьбы телевизионной сети к компании Remington Rand о бесплатном предоставлении во временное пользование сотни электрических пишущих машинок и счётных машин. Взамен это оборудование должно было появиться на экранах во время освещения ночи выборов, то есть по сути предполагалась бесплатная реклама бесплатно предоставленных машин. Но более привлекательной идеей оказалось бесплатное предоставление компьютера взамен на его бесплатную рекламу.

По результатам подсчёта всего 3 млн голосов (7%) UNIVAC предсказывал триумф Эйзенхауэра: 438 голосов коллегии выборщиков против 93 за Стивенсона. Большинство прогнозов предсказывало близкие друг к другу результаты кандидатов, поэтому такому прогнозу в Филадельфии просто не поверили. Ввиду этого программисты быстро внесли исправления в программу, чтобы получить более «правдоподобный» результат, который и был продемонстрирован. Однако в итоге оказалось, что Эйзенхауэр получил 442 голоса против 89 — то есть очень близко именно к первоначальному прогнозу! Когда ночная история выплыла наружу, известный американский тележурналист Эд Мерроу сказал: «Главная проблема с машинами — это люди»[14], [15].

В наши дни люди часто, напротив, склонны переоценивать качество решений, предлагаемых моделями, предполагая, что модель обладает сверхчеловеческими способностями. На самом деле поведение модели может быть связано с дефектами, допущенными на стадии разработки. Недоверие к системам ИИ легко переходит в безоговорочное принятие. Люди не всегда отдают себе отчёт в том, что тот факт, что некоторая система ИИ выиграла в го или шахматы у чемпиона мира, вовсе не значит, что система кредитного скоринга не ошибётся, присваивая клиенту кредитный рейтинг. ИИ очень часто воспринимается людьми как некая универсальная сверхчеловеческая сущность — такое представление активно формируется под влиянием плохого кино и бульварного чтива. В действительности мы имеем дело с разными системами, создававшимися разными командами, обладающими разными свойствами и предназначенными для решения совершенно разных задач, — такое положение дел характерно для эпохи прикладного ИИ.

В своей весьма пессимистичной по духу книге «Искусственная неразумность: как компьютеры неверно понимают мир» (Artificial Unintelligence: How Computers Misunderstand the World)[16] (в русском переводе заголовок книги звучит как «Искусственный интеллект: пределы возможного»[17]) профессор Нью-Йоркского университета Мередит Бруссард обращает внимание на опасность техношовинизма — наивной веры в то, что технологии сами по себе могут решить все существующие в обществе проблемы. Такой подход может приводить к формированию специфического «слепого пятна». Качество решений, предлагаемых системами, основанными на машинном обучении, сильно зависит от особенностей данных, на которых эти системы были обучены. При этом сами данные являются продуктом определённых процедур, несущих на себе отпечаток существующих социальных практик. Простой пример — библиотеки научных публикаций. Исследователи, которым не удалось подтвердить свои изначальные гипотезы, часто отказываются от публикации результатов. В итоге в подавляющем большинстве опубликованных работ эксперименты подтверждают гипотезы, хотя в реальных исследованиях это совсем не так. Данные могут содержать намеренные и ненамеренные искажения, распределение данных в базе может отличаться от распределения соответствующих им объектов или явлений реального мира (по самым разным причинам), наконец, данные могут быть просто неполны. Существующие в данных корреляции могут ошибочно интерпретироваться создателями систем ИИ как причинно-следственные связи. Но даже если в процессе создания подобных систем и удастся обойти существующие подводные камни, то неразумное применение плодов «искусственного разума» может привести к нежелательным последствиям.

Бруссард показывает, какие ошибки можно сделать, пытаясь создать систему, предсказывающую вероятность выживания в кораблекрушении на основе сведений о судьбе пассажиров «Титаника», особенно если не вдаваться в содержательный анализ событий, стоящих за этим небольшим массивом данных.

Например, шлюпки с нечётными номерами спасли больше людей, чем шлюпки с чётными номерами. Значит ли это, что для повышения безопасности следует всем спасательным шлюпкам давать нечётные номера? В действительности за этой сухой статистикой скрывается драматическая история. Капитан корабля при организации эвакуации отдал приказ сажать в шлюпки женщин и детей, а затем спускать шлюпки на воду. Офицеры, отвечавшие за эвакуацию, поняли этот приказ по-разному. Первый офицер, который отвечал за спасательные шлюпки на правом борту (с нечётными номерами), подумал, что капитан велел сажать в шлюпки женщин и детей в первую очередь (т. е. мужчин сажали в шлюпки, если поблизости не было женщин и детей). Второй офицер, отвечавший за шлюпки левого борта (с чётными номерами), посчитал, что сажать в шлюпку нужно только женщин и детей. В итоге большинство спасшихся пассажиров «Титаника» покинули корабль на шлюпках правого борта (разумеется, были и иные факторы, повлиявшие на это соотношение)[18].

Доля выживших пассажиров «Титаника» была существенно выше среди тех, кто путешествовал по более дорогим билетам. Значит ли это, что страховая компания может снизить стоимость страховки для пассажиров, отправляющихся в круиз в каютах первого класса? Ведь данные говорят нам о том, что их шансы погибнуть при кораблекрушении будут ниже.

В общем, не стоит думать, что «умные машины» решат все проблемы человечества самостоятельно — использование продвинутых вычислительных моделей вовсе не является гарантией отсутствия ошибок в результатах, полученных с их помощью. И даже в случае отсутствия ошибок полученные результаты ещё нужно понять и правильно ими распорядиться. В общем-то на эту тему в своё время высказался ещё Чарльз Бэббидж: «Однажды меня спросили [члены парламента]: „Если ввести в машину неправильные числа, она даст верный ответ?“ <…> Я не могу взять в толк, какая мешанина идей должна быть в голове, чтобы спросить такое»[19].

5. Формирование «токсического цикла». Представим себе систему социального рейтинга, использующую модель машинного обучения для присвоения гражданам определённого балла на основании их поступков. От социального рейтинга может зависеть доступ граждан к государственным сервисам и благам. Проблема заключается в том, что человек, по юности оступившись и получив в некоторый момент плохое значение социального рейтинга, утрачивает доступ к качественному образованию, тем самым уменьшая свои шансы на дальнейшую реабилитацию. Цель системы — корректировать поведение людей в положительную сторону, но вместо этого она может на деле способствовать дальнейшему погружению людей на социальное дно. Хотя такого рода явления существовали и ранее (например, работодатели избегают брать на работу людей с судимостью, тем самым уменьшая их шансы на возвращение к нормальной жизни), использование ИИ может приводить к тиражированию подобных практик. Потенциально это очень опасное свойство такого рода моделей. Хорошей иллюстрацией этого «токсического цикла» является первый эпизод третьего сезона телесериала «Чёрное зеркало», в котором мир будущего основан на системе оценок, которые люди могут ставить друг другу при помощи специального приложения.

  1. * Пер. Л. Васильева и Н. Маркалова.
  2. O'Neil C. (2016). Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. Crown // https://books.google.ru/books?id=NgEwCwAAQBAJ
  3. О'Нил К. (2020). Убийственные большие данные. Как математика превратилась в оружие массового поражения // https://books.google.ru/books?id=Cxh9DwAAQBAJ
  4. Паскуале Ф. (2016). Цифровой тайный суд (пер. с англ. Райдера Д.) / XX2 век, 27 мая // https://22century.ru/popular-science-publications/digital-star-chamber
  5. Pasquale F., Haselby S. (2015). Digital star chamber / aeon, 18 August 2015 // https://aeon.co/essays/judge-jury-and-executioner-the-unaccountable-algorithm
  6. Pasquale F. (2015). The Black Box Society. Harvard University Press // https://books.google.ru/books?id=TumaBQAAQBAJ
  7. Clark M. (2021). Bad software sent postal workers to jail, because no one wanted to admit it could be wrong / The Verge, Apr 23, 2021 // https://www.theverge.com/2021/4/23/22399721/uk-post-office-software-bug-criminal-convictions-overturned
  8. Peachey K. (2021). Convicted Post Office workers have names cleared / BBC News // https://www.bbc.com/news/business-56859357
  9. Brooks R., Wallis N. (2020). Justice lost in the post / Private Eye Special Report // https://www.private-eye.co.uk/pictures/special_reports/justice-lost-in-the-post.pdf
  10. Buolamwini J. (2017). Gender Shades: Intersectional Phenotypic and Demographic Evaluation of Face Datasets and Gender Classifiers. MIT Master's Thesis // https://www.media.mit.edu/publications/full-gender-shades-thesis-17/
  11. Buolamwini J., Gebru T. (2018). Gender shades: Intersectional accuracy disparities in commercial gender classification / Proceedings of the 1st Conference on Fairness, Accountability and Transparency, PMLR, Vol. 81, pp. 77—91 // http://proceedings.mlr.press/v81/buolamwini18a.html
  12. Augarten S. (1984). Bit by Bit: An Illustrated History of Computers. Ticknor and Fields // https://books.google.ru/books?id=kYJfQgAACAAJ
  13. Chinoy I. (2010). Battle of the brains: election-night forecasting at the dawn of the computer age // https://doi.org/10.13016/rj15-4718
  14. Wulforst H. (1982). Breakthrough to the Computer Age. Charles Scribner // https://books.google.ru/books?id=5X9QAAAAMAAJ
  15. Winston B. (1998). Media technology and society: a history: from the telegraph to the Internet. Psychology Press // https://books.google.ru/books?id=TZOF_1GZRmYC
  16. Broussard M. (2019). Artificial Unintelligence: How Computers Misunderstand the World. MIT Press // https://books.google.ru/books?id=4r34DwAAQBAJ
  17. Бруссард М. (2020). Искусственный интеллект: Пределы возможного. — М.: Альпина нон-фикшн // https://books.google.ru/books?id=YR3JDwAAQBAJ
  18. Tenner E. (2012). Did a Rumor Doom Titanic Passengers? / The Atlantic, April 11, 2012 // https://www.theatlantic.com/national/archive/2012/04/did-a-rumor-doom-titanic-passengers/255706/
  19. Babbage C. (1864). Passages from the Life of a Philosopher. Longman, Green, Longman, Roberts & Green // https://archive.org/details/passagesfromlif01babbgoog/page/66/mode/2up
Loading comments...