8.4 Интерпретация работы моделей ИИ

Нет таких трав, чтобы узнать чужой нрав.

Русская народная пословица

Ещё одной часто обсуждаемой проблемой в области машинного обучения является так называемая «проблема чёрного ящика» [black box problem], или «объяснимого ИИ» [explainable AI]. Читатели жёлтой околотехнологической прессы обычно получают напоминания о существовании этой проблемы в виде двух типов статей. В одних рассказывается, что мы не понимаем, «как работает ИИ» (вариант — нейросети), что эти модели являются «неинтерпретируемыми» и что это очень плохо и опасно, а в других сообщается, что кому-то из исследователей наконец-то удалось решить «проблему чёрного ящика» и объяснить, как именно «работает ИИ». Реально, как водится, куда сложнее. Для начала нужно понять, что означает выражение «мы понимаем» (иными словами — какой смысл мы вкладываем в понятие интерпретируемости). Что значит «понимать» то, как работает та или иная модель машинного обучения? Что касается нейронной сети, то все вычисления, которые она выполняет, можно представить в виде последовательности арифметических операций. В этом смысле работа нейронной сети вполне понятна. Взяв достаточное количество бумаги и карандашей и обладая достаточным количеством свободного времени, любой человек, знакомый со школьной арифметикой, вполне может вычислить ответ нейронной сети на тот или иной входной стимул. Постичь принципы, лежащие в основе нейросетевых моделей и их обучения, довольно нетрудно, и в этом смысле мы хорошо понимаем, как работают нейронные сети. Однако это, очевидно, не тот тип понимания, который имеют в виду, называя нейронную сеть чёрным ящиком. В действительности люди имеют в виду скорее возможность представить обученную сеть в виде компактного набора правил, который мог бы быть усвоен человеком и применён им на практике. Таким образом, под объяснимостью модели обычно понимают возможность уместить её «в человеческую голову», в некоторый ограниченный информационный объём, который американский учёный чилийского происхождения Сезар Идальго остроумно назвал «челобайтом» [personbyte]^[1].

В машинном обучении существует отдельная область, которая занимается передачей знаний от больших (по числу параметров) моделей к меньшим, она называется «дистилляция знаний» [knowledge distillation]. Частным случаем дистилляции является «сжатие моделей» [model compression] — активно развивающееся в последние годы направление, в рамках которого исследуется возможность выполнения современных глубоких сетей на устройствах с ограниченными ресурсами без значительного снижения точности. В рамках этого направления выработано множество интересных методов, например различных видов малоранговой аппроксимации (таких как разреженная малоранговая факторизация, которая позволяет эффективно заменить многие синаптические веса нулевыми значениями)^[2], квантизации весов (например, замены 32-битных вещественных значений весов 8-битными целочисленными) и так далее. В рамках этой парадигмы при обучении модели можно использовать специальные виды регуляризации параметров, например «регуляризацию в целях увеличения интерпретируемости» [regularization for interpretability]^[3], чтобы позволить искусственной нейронной сети «выполниться» на таком устройстве, как мозг человека.

Аналогия со сжатием подталкивает к ещё одному интересному соображению. В сжатии данных часто используются алгоритмы, ищущие аналогии в потоках данных, например повторяющиеся фрагменты. Модель, «понятная человеку», могла бы опираться на понятия и концепции, уже понятые и усвоенные человеком. Тут речь идёт о «переиспользовании» признаков, выученных биологической сетью, в интерпретируемой искусственной нейронной сети. Предположим, некий человек не знает, кто такой тигр, но знает понятия «животное», «кошка», «оранжевый», «чёрный», «полоска». Если мы скажем ему, что тигр — это животное, напоминающее крупную оранжевую кошку с чёрными полосками, то тем самым мы дадим ему интерпретируемую модель для определения тигра. Нетрудно заметить, что наша модель получилась чрезвычайно компактной за счёт того, что мы выполнили сжатие путём замены алгоритмов определения признаков на отсылки к уже существующим в голове человека понятиям. Однако у этого подхода есть очевидный недостаток — мы не знаем заранее, какие именно признаки содержатся в уме конкретного человека, и не можем быть уверены в том, что, например, под «оранжевым» или «полоской» он понимает то же самое, что и наша модель. В процессе передачи знаний от одних людей другим часто возникает аналогичная проблема, поэтому на деле сжатие знаний при их передаче через «узкое горлышко» естественного языка неизбежно сопряжено с определёнными потерями. Употребляя аналогии из мира глубокого обучения, можно сказать, что человеческий разум оборудован своеобразным кодировщиком, который позволяет преобразовать паттерны активности мозга, связанные с теми или иными мысленными образами, в более компактное представление в семиотическом пространстве (т. е. в пространстве той или иной символьной системы, например естественного языка). К этому «кодировщику» прилагается «декодер», способный, напротив, перевести такое компактное представление в паттерны активности мозга.

Помочь с проблемой потерь знаний при их передаче может составление своеобразного каталога общепринятых понятий и их значений, что, в свою очередь, подводит нас к ещё одной интересной аналогии: задача создания интерпретируемой модели в действительности очень похожа на задачу машинного перевода. Поэтому методы из этой области используют для создания своих моделей некоторые исследователи «объяснимого ИИ».

На сегодняшний день учёными создано множество инструментов, предназначенных для интерпретации работы нейросетевых моделей. Это и системы по визуализации активаций в свёрточных нейронных сетях, позволяющие своими глазами увидеть признаки, на которые реагирует нейронная сеть, и системы для визуализации полей внимания (в том числе в задачах по обработке естественного языка). Помогают понять структуру знаний моделей компьютерного зрения и состязательные атаки^[4], и мультимодальные архитектуры, способные работать одновременно с изображениями и их текстовым описанием, подобно уже упомянутым нами в главе о творчестве нейронных сетей моделям CLIP и DALL·E. Исследователи из Google создали специальную генеративно-состязательную архитектуру под названием StyleEx, призванную объяснять причины принятия зрительными нейросетевыми классификаторами тех или иных решений^[5]. Значительные успехи достигнуты и в развитии методов, позволяющих объяснять работу моделей, основанных на трансформерных архитектурах. Это направление получило полушуточное название «бертология» [bertology] в честь модели BERT^[6]. Одно из удивительных достижений современных бертологов — открытие того, что полносвязные слои в блоках трансформера могут играть роль механизма «ключ — значение», где ключи коррелируют с текстовыми структурами в обучающих примерах, а значения влияют на распределение вероятностей токенов на выходах сети, причём выучиваемые связи понятны людям. Также авторы исследования показали, что слои сети, расположенные ближе к её входу, отвечают за более конкретные, «низкоуровневые» закономерности в тексте, а слои, расположенные ближе к выходу сети, кодируют более абстрактные, семантические зависимости^[7]. Более того, в наши дни уже разработаны методы, позволяющие выявлять веса трансформерной модели, отвечающие за хранение конкретных фактов, и затем вмешиваться в «память» модели, производя «подмену» фактологической информации^[8]^, ^[9]. Однако в этом направлении многое ещё предстоит сделать, чтобы работа нейросетевых моделей стала ещё более понятной экспертам-людям.

Успехи бертологии вылились в возникновение новой отрасли машинного обучения, получившей название «инженерия представлений» (Representation engineering, RepE). Инженерию представлений можно считать частью ещё более общей дисциплины — нейрофизиологии искусственных нейронных сетей. Изучая внутренние представления [hidden states] нейросетевых моделей путём анализа активаций их нейронов в ответ на определённые стимулы, мы можем затем успешно влиять на поведение сети, «сдвигая» его в нужном нам направлении за счёт коррекции некоторых весов. Например, как выяснилось, можно выявить градиент изменения весов, соответствующий повышению «честности» ответов модели, и если немного «подвинуть» веса в этом направлении, модель будет в среднем меньше врать. Модифицированная таким образом модель Llama 2 смогла прибавить целых 10 процентных пунктов на тесте TruthfulQA. Теперь исследователи заняты анализом других «направлений», таких как эмоциональность, этичность и так далее.^[10]^, ^[11]

Основным инструментом исследователей стал метод, получивший название «низкоранговая адаптация представлений» (Low-Rank Representation Adaptation, LoRRA), выявляющий нужные градиенты изменения весов на основе маленьких наборов, содержащих порядка сотни размеченных примеров.

Другое достижение нейрофизиологии искусственных нейронных сетей — обнаружение во внутренних представлениях Llama 2 ни много ни мало карты мира! Учёных давно интересовали вопросы о том, есть ли «внутри» языковых моделей модель мира или, например, чувство времени? Новое исследование Уэса Гёрни и Макса Тегмарка доказывает, что есть. «Нет, LLM — не просто стохастические попугаи: Llama 2 содержит в буквальном смысле подробную модель мира. Мы даже обнаружили „нейрон географической долготы“» — пишут исследователи^[12].

Впрочем, часто люди не в полной мере осознают, что означает неинтерпретируемость модели с практической точки зрения. В повседневной жизни человек буквально окружён объектами, принципы поведения которых он не понимает в полной мере. Обычный человек легко может жить, не понимая, как устроен телевизор или автомобиль, как функционирует живая клетка или система государственного управления. Наконец, мы не можем «залезть в голову» других людей, чтобы получить исчерпывающее объяснение их поступков. Конечно, люди нередко рассказывают, на чём они основывались, принимая то или иное решение, однако проблема заключается в том, что эти рассказы часто имеют мало общего с действительным процессом принятия решений. Для таких объяснений post factum существует даже специальный термин — [ретроспективная] рационализация. Согласно поговорке задним умом мы всегда крепки. Однако на деле цена подобных «объяснений» нередко оказывается небольшой — вспомним хотя бы попытки Ботвинника создать шахматную программу, воплощающую в себе алгоритм игры человека-гроссмейстера, — оказалось, что профессиональный шахматист не может объяснять свой способ принятия решения с точностью, достаточной для реализации в виде эффективного алгоритма. В ряде случаев поведение «неинтерпретируемых» нейросетевых моделей является куда более предсказуемым и контролируемым, чем поведение людей. В конце концов, эти модели обычно интенсивно тестируются на огромных тестовых выборках, а затем — если, например, речь о беспилотных автомобилях — в ходе испытаний на дорогах, километраж которых многократно превышает опыт большинства водителей. Некоторые люди заявляют, что их страхи перед автономными автомобилями связаны с «неинтерпретируемостью» действий последних, но аналогичным образом можно бояться и поездок на такси с незнакомыми водителями, чьё поведение тоже можно считать «неинтерпретируемым». Хотя вы можете спросить у попавшего в аварию водителя, почему он принял то или иное решение, но не факт, что он сможет объяснить свои действия. С практической точки зрения моделям обычно нужны масштабные и правильно выстроенные испытания (в том числе и в критических ситуациях), а вовсе не интерпретируемость, а «проблема чёрного ящика» на деле вряд ли может считаться вызовом, всерьёз угрожающим развитию ИИ.

↑ Hidalgo C. (2015). Why Information Grows: The Evolution of Order, from Atoms to Economies. Hachette UK // https://books.google.ru/books?id=0984DgAAQBAJ
↑ Swaminathan S., Garg D., Kannan R., Andres F. (2020). Sparse low rank factorization for deep neural network compression / Neurocomputing, Vol. 398, pp. 185—196 // https://doi.org/10.1016/j.neucom.2020.02.035
↑ Wu M., Parbhoo S., Hughes M. C., Roth V., Doshi-Velez F. (2019). Optimizing for Interpretability in Deep Neural Networks with Tree Regularization // https://arxiv.org/abs/1908.05254
↑ Akhtar N., Jalwana M., Bennamoun M., Mian A. S. (2021). Attack to Fool and Explain Deep Networks / IEEE Transactions on Pattern Analysis and Machine Intelligence, 26 May 2021 // https://doi.org/10.1109/TPAMI.2021.3083769
↑ Lang O., Gandelsman Y., Yarom M., Wald Y., Elidan G., Hassidim A., Freeman W. T., Isola P., Globerson A., Irani M., Mosseri I. (2021). Explaining in Style: Training a GAN to explain a classifier in StyleSpace // https://arxiv.org/abs/2104.13369
↑ Rogers A., Kovaleva O., Rumshisky A. (2020). A Primer in BERTology: What we know about how BERT works // https://arxiv.org/abs/2002.12327
↑ Geva M., Schuster R., Berant J., Levy O. (2020). Transformer Feed-Forward Layers Are Key-Value Memories // https://arxiv.org/abs/2012.14913
↑ Meng K., Bau D., Andonian A., Belinkov Y. (2022). Locating and Editing Factual Associations in GPT // https://arxiv.org/abs/2202.05262
↑ Eldan R., Russinovich M. (2023). Who's Harry Potter? Approximate Unlearning in LLMs // https://arxiv.org/abs/2310.02238
↑ Li K., Patel O., Viégas F., Pfister H., Wattenberg M. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model // https://arxiv.org/abs/2306.03341
↑ Zou A., Phan L., Chen S., Campbell J., Guo P., Ren R., Pan A., Yin X., Mazeika M., Dombrowski A.-K., Goel S., Li N., Byun M. J., Wang Z., Mallen A., Basart S., Koyejo S., Song D., Fredrikson M., Kolter J. Z., Hendrycks D. (2023). Representation Engineering: A Top-Down Approach to AI Transparency // https://arxiv.org/abs/2310.01405
↑ Gurnee W., Tegmark M. (2023). Language Models Represent Space and Time // https://arxiv.org/abs/2310.02207

Loading comments...

[1] Hidalgo C. (2015). Why Information Grows: The Evolution of Order, from Atoms to Economies. Hachette UK // https://books.google.ru/books?id=0984DgAAQBAJ

[2] Swaminathan S., Garg D., Kannan R., Andres F. (2020). Sparse low rank factorization for deep neural network compression / Neurocomputing, Vol. 398, pp. 185—196 // https://doi.org/10.1016/j.neucom.2020.02.035

[3] Wu M., Parbhoo S., Hughes M. C., Roth V., Doshi-Velez F. (2019). Optimizing for Interpretability in Deep Neural Networks with Tree Regularization // https://arxiv.org/abs/1908.05254

[4] Akhtar N., Jalwana M., Bennamoun M., Mian A. S. (2021). Attack to Fool and Explain Deep Networks / IEEE Transactions on Pattern Analysis and Machine Intelligence, 26 May 2021 // https://doi.org/10.1109/TPAMI.2021.3083769

[5] Lang O., Gandelsman Y., Yarom M., Wald Y., Elidan G., Hassidim A., Freeman W. T., Isola P., Globerson A., Irani M., Mosseri I. (2021). Explaining in Style: Training a GAN to explain a classifier in StyleSpace // https://arxiv.org/abs/2104.13369

[6] Rogers A., Kovaleva O., Rumshisky A. (2020). A Primer in BERTology: What we know about how BERT works // https://arxiv.org/abs/2002.12327

[7] Geva M., Schuster R., Berant J., Levy O. (2020). Transformer Feed-Forward Layers Are Key-Value Memories // https://arxiv.org/abs/2012.14913

[8] Meng K., Bau D., Andonian A., Belinkov Y. (2022). Locating and Editing Factual Associations in GPT // https://arxiv.org/abs/2202.05262

[9] Eldan R., Russinovich M. (2023). Who's Harry Potter? Approximate Unlearning in LLMs // https://arxiv.org/abs/2310.02238

[10] Li K., Patel O., Viégas F., Pfister H., Wattenberg M. (2023). Inference-Time Intervention: Eliciting Truthful Answers from a Language Model // https://arxiv.org/abs/2306.03341

[11] Zou A., Phan L., Chen S., Campbell J., Guo P., Ren R., Pan A., Yin X., Mazeika M., Dombrowski A.-K., Goel S., Li N., Byun M. J., Wang Z., Mallen A., Basart S., Koyejo S., Song D., Fredrikson M., Kolter J. Z., Hendrycks D. (2023). Representation Engineering: A Top-Down Approach to AI Transparency // https://arxiv.org/abs/2310.01405

[12] Gurnee W., Tegmark M. (2023). Language Models Represent Space and Time // https://arxiv.org/abs/2310.02207

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]