8.6 Далеко ли до общего искусственного интеллекта (AGI)?
Посыпались частые звенящие удары — планетарные моторы заработали автоматически, когда управлявшая кораблём электронная машина почувствовала впереди огромное скопление материи. «Тантра» принялась раскачиваться. Как ни замедлял свой ход звездолёт, но люди в посту управления начали терять сознание. Ингрид упала на колени. Пел Лин в своём кресле старался поднять налившуюся свинцом голову, Кэй Бэр ощутил бессмысленный, животный страх и детскую беспомощность.
Удары двигателей зачастили и перешли в непрерывный гром. Электронный «мозг» корабля вёл борьбу вместо своих полубесчувственных хозяев, по-своему могучий, но недалёкий, так как не мог предвидеть сложных последствий и придумать выход из исключительных случаев.
Иван Ефремов. Туманность Андромеды
Появление больших трансформерных моделей, таких как GPT-3, способных без переучивания решать широкий спектр задач в области обработки естественного языка, подлило масла в огонь дискуссии о том, насколько мы приблизились к созданию систем общего искусственного интеллекта (AGI). В августе 2020 г. на arXiv.org был выложен препринт статьи двух молодых исследователей Джона-Кларка Левина и Маттейса Мааса под названием «Дорожная карта по созданию дорожной карты: как мы сможем определить, когда AGI окажется от нас на расстоянии „Манхэттенского проекта“?» (Roadmap to a Roadmap: How Could We Tell When AGI is a ‘Manhattan Project’ Away?)[1].
В ней авторы задаются вопросом: по каким признакам можно понять, что задача создания AGI уже вышла на «взлётную полосу» и для её реализации достаточно лишь воплотить в жизнь соответствующий мегапроект (сопоставимый с проектом по созданию ядерного оружия или по отправке человека на Луну)?
Первым делом авторы задаются вопросом о том, что именно мы понимаем под мегапроектом. Манхэттенский проект и программа «Аполлон» по объёму ежегодных затрат достигали в пике 0,4% ВВП США, что для современного объёма ВВП США составило бы около 80 млрд долларов в год. Авторы показывают, что современные крупные проекты в области исследований и разработки имеют обычно значительно более скромные объёмы финансирования. Например, проект по созданию лазерно-интерферометрической гравитационно-волновой обсерватории (Laser Interferometer Gravitational-Wave Observatory, LIGO) довольствовался 300 млн долларов в год, проект по расшифровке генома человека — 400 млн долларов в год, Большой адронный коллайдер на этапе постройки обходился в 475 млн долларов в год, а на этапе эксплуатации — 1 млрд долларов в год. Пиковое значение годового бюджета Международного термоядерного экспериментального реактора (International Thermonuclear Experimental Reactor, ITER) составило 2 млрд долларов. Только проект по созданию F-35 (семейства малозаметных многофункциональных истребителей-бомбардировщиков пятого поколения), ежегодные предполагаемые расходы по которому авторы статьи оценивают в 16 млрд долларов, может в какой-то мере сравниться по этому показателю с «Аполлоном» и Манхэттенским проектом. Авторы предполагают, что теоретически мегапроект по созданию AGI может быть на один-два порядка дороже современных мегапроектов, что автоматически выводит его за пределы возможностей частного сектора.
Однако выделение столь большого бюджета вовсе не является достаточным условием успеха подобного проекта. Даже увеличение финансирования Манхэттенского проекта с 0,4% ВВП до 4% или даже 40% не могло бы позволить создать ядерную бомбу в 1935 г. Если одна женщина может родить ребёнка за девять месяцев, это вовсе не значит, что девять женщин смогут родить его за месяц. Можно сказать, что сложная научная задача сходна с перетаскиванием тяжёлого груза — чем больше у него площадь поверхности, тем больше людей может быть задействовано и тем проще будет переместить данный груз. Для научной задачи можно тоже ввести условную «площадь поверхности» [surface area], характеризующую, насколько хорошо задачу можно разделить на подзадачи для одновременной работы нескольких исследователей. При этом возможно и расширять саму «площадь поверхности» задачи, чтобы работы по ней могло вести большее число исследователей, тем самым ускоряя прогресс.
Авторы считают, что в реальности возможны три варианта состояния дел в области проектирования общего искусственного интеллекта (AGI):
- у этой проблемы будет стадия «взлёта», но мы пока ещё не «вырулили на взлётную полосу»;
- у этой проблемы будет стадия взлёта, и мы уже находимся внутри неё;
- у этой проблемы в принципе не будет стадии взлёта, потому что последний шаг для создания AGI окажется невозможным реализовать как мегапроект (например, если AGI будет создан в результате неожиданного теоретического прорыва в другой области, который резко повысит возможности уже созданных систем).
В статье авторы озвучивают страхи в отношении того, что в силу своей возможности быстрой консолидации ресурсов авторитарные режимы могут продвинуться в задаче разработки AGI дальше, чем демократические, что создаёт угрозу глобального технологического превосходства первых.
Для оценки продвижения к стадии взлёта авторы предлагают мониторинг следующих областей:
- запланированные подзадачи [Roadmapped sub-problems]: появление чётко сформулированного набора подзадач для проекта по созданию AGI;
- производственная функция AGI [AGI production function]: появление производственной функции AGI, которая бы описывала взаимосвязь затрат ресурсов (времени обучения, данных, вычислений и других ресурсов) с производительностью ИИ;
- капиталоёмкость [Capital intensiveness]: рост инвестиций в аппаратную инженерию и программное обеспечение;
- параллелизм [Parallelism]: подзадачи решаются параллельно (а не последовательно) несколькими командами;
- скорость обратной связи [Feedback speed]: более быстрая оценка результатов решения подзадач позволяет менять подходы на основе полученных результатов и более эффективно использовать ресурсы;
- поведение ключевых действующих лиц [Behavior of key actors] — учёных, политиков, предпринимателей и так далее.
В конце исследования авторы делятся мнением о существующем положении дел и перспективах данного направления:
- «площадь поверхности» проблемы AGI в настоящее время, по всей видимости, слишком мала, чтобы отдельные государства могли воспользоваться своими ресурсами и добиться успеха в создании AGI. Однако когда фундаментальные исследования в достаточной мере расширят эту «площадь», всё может резко измениться;
- в связи с научными и геополитическими последствиями такого сдвига необходимы более точные метрики для оценки того, насколько исследования AGI близки к стадии взлёта;
- предлагается дальнейшее уточнение и формализация показателей прогресса по продвижению к этой стадии.
Учитывая сказанное выше, можно сделать вывод, что перед ИИ сегодня стоит множество интересных проблем, решение которых может существенно изменить привычный нам мир. Причём список задач и направлений исследований, приведённый в этой главе, вовсе не претендует на полноту — в стремительно развивающейся области новые ответвления исследований возникают весьма быстро, и не всегда есть возможность уследить за всем, что происходит в университетских лабораториях и корпоративных исследовательских центрах. В качестве шагов по направлению создания AGI можно рассматривать и многозадачные мультимодальные фундаментальные модели, и новые модели в области обучения с подкреплением (такие, например, как MuZero), и новые подходы в области активного обучения (например, GFlowNets[2]), и новые успехи в симуляции биологических нейронных сетей (такие, например, как проект лаборатории Rain Neuromorphics по моделированию работы мозга[3]).
Более того, создание AGI может стать следствием сугубо прикладных исследований, ведь между текущими возможностями ИИ-систем и возможностями гипотетического общего искусственного интеллекта лежит множество интеллектуальных задач, решение которых необходимо для развития вполне конкретных продуктов и сервисов. И некоторые из этих задач могут оказаться AI-hard-задачами, то есть задачами, требующими для своего решения наличия у решающих их систем общего интеллекта. Исследование свойств стафилококков и череда совпадений привели Александра Флеминга и его коллег к одному из величайших научных событий XX века — открытию пенициллина. Работа над машинным переводом привела к появлению трансформерных архитектур и фундаментальных моделей — наиболее передовых инструментов современного ИИ. Не исключено, что очередное локальное, на первый взгляд, достижение откроет нам прямую короткую дорогу к AGI. Или, быть может, этот путь уже открыт и нам просто стоит правильным образом скомбинировать уже существующие методы, сдобрить полученную смесь огромными вычислительными мощностями, и, вуаля, золотой ключик у нас в кармане?! В конце концов, ChatGPT — это продукт именно такого подхода. Все основные предполагаемые ингредиенты (большие трансформерные модели, самообучение, дообучение на целевых данных, обучение с подкреплением) были хорошо известны ещё несколько лет назад.
Давайте окинем взглядом все кусочки имеющейся у нас мозаики, чтобы понять, все ли необходимые детали для создания будущего AGI имеются в наличии?
Начнём с критериев успеха. Поскольку под AGI-системой мы понимаем систему, способную выполнить любую интеллектуальную задачу, посильную для человека, то критерием создания такой системы станет невозможность нахождения такой задачи, которую люди будут решать статистически значимо лучше, чем созданная система. Мы уже подробно обсуждали историю и проблематику создания соответствующих процедур тестирования в разделах 1.2 и 6.3.4. В целом идеи Айера и Тьюринга сохраняют свою значимость даже спустя почти столетие. Конечно, в отношении оригинальных формулировок игры в имитацию существует ряд вполне резонных вопросов, которые при реализации подобной процедуры потребуют прояснения. Например, важно определиться, с какими именно людьми мы выполняем сравнение, кто входит в жюри (сколько людей, являются ли они специалистами?), каковы критерии завершения теста, каким образом оценивается статистическая значимость результата, как избежать ситуации, когда демаскирующим свойством системы-кандидата будет проявление её сверхчеловеческих способностей (например, способность быстро и точно выполнять арифметические расчёты), важно ли включать в тест задачи, требующие способности системы работать с разными модальностями, и так далее. Однако все эти нюансы, на мой взгляд, ничего не меняют существенным образом. Кроме того, в настоящее время создано множество наборов тестов, позволяющих с минимальными затратами в автоматическом режиме (без привлечения людей-оценщиков) получить приближённую оценку прогресса, мы подробно говорили о них в разделе 6.3.3.6 (например, наборы тестов из семейства GLUE, BIG-bench, MMLU). В общем, в области оценки возможностей систем ИИ ещё требуется дополнительная работа по расширению, систематизации и стандартизации, однако, кажется, нет никаких задач, выглядящих неразрешимыми. Если тезис о симуляции верен, то тест Тьюринга в его последней авторской формулировке теоретически в будущем сможет пройти большая тьюринг-полная языковая модель.
Но можно ли создать такую модель, используя уже имеющиеся у нас методы? Ключевым вопросом в данном случае является вопрос о том, можно ли создать AGI без активного обучения и воплощения, опираясь только на имеющийся массив цифровых данных, накопленный нашим обществом на данный момент, — так называемый «цифровой след человечества». Вопрос этот совершенно нетривиальный и, вероятно, может быть разрешён только экспериментальным путём. Система ИИ, обученная только на данных, являющихся продуктами чужой практики, подобна Жаку Паганелю — знаменитому герою романа «Дети капитана Гранта» Жюля Верна. В романе Паганель стал секретарём Парижского географического общества, членом-корреспондентом географических обществ Берлина, Бомбея, Дармштадта, Лейпцига, Лондона, Петербурга, Вены и Нью-Йорка, почётным членом Королевского географического и этнографического обществ, а также Института Ост-Индии, и всё это — не выходя из своего кабинета. Однако возможен ли такой искусственноинтеллектуальный Паганель на практике? Вот некоторые доводы за и против этой гипотезы (мы будем называть её гипотезой о выводимости [AGI из цифрового следа человечества]).
За:
- Собранные человечеством цифровые данные — продукт масштабной социальной практики, в которой участвуют миллиарды людей. Цифровой след человечества — отпечаток столь масштабного и разностороннего опыта, что он на много порядков превосходит по объёму любой индивидуальный опыт человека. Отталкиваясь от продуктов этого опыта, можно построить подробную модель мира и без непосредственного выхода в этот мир в физическом теле. Проще говоря — миллиарды шишек, набитых другими, могут заменить машине несколько собственных.
- Размер цифрового следа человечества растёт экспоненциальными темпами (см. раздел 5.4). Даже если данных не хватает в настоящий момент, очень скоро их будет ещё больше. Растёт разрешение цифровых камер, и увеличивается их доступность, всё больше данных накапливается в журналах систем, взаимодействующих с реальным миром, ежедневно люди пишут миллионы постов в социальных сетях — всё это пополняет копилку данных, полезных для обучения. И, рано или поздно, количество перейдёт в качество.
- В конце концов мы уже стали свидетелями потрясающих успехов больших языковых моделей и генеративного ИИ. Большие модели оказались способны осуществлять обобщения, необходимые для возникновения у них новых удивительных возможностей. Таких, например, как написание содержательных текстов, генерация новых изображений по текстовым описаниям, сочинение музыки, создание новых молекул и т. д. Вполне возможно, что для нерешённых задач нам просто нужны более крупные модели, больше данных и больше вычислительных мощностей.
Против:
- Насколько хороши результаты современных моделей за пределами распределений, присущих данным из обучающих выборок? Способны ли генеративные модели эффективно соревноваться с людьми в новых, неизведанных областях пространства и времени? Некоторые современные исследования[4] показывают, что картина, возможно, не столь радужна, как может показаться на первый взгляд.
- Цифровой след человечества содержит специфические перекосы, растёт его шумовая составляющая (проще говоря, в накопленных нами цифровых данных может расти доля «мусора», в том числе из-за современных практик применения генеративных моделей — действительно ценные данные могут тонуть в тоннах рекламной, а то и вовсе бессмысленной чепухи).
- Огромный объём цифрового следа человечества не может компенсировать его невысокой «разрешающей способности» — в интернете, вероятно, можно найти фотографию вашего дома, но там вряд ли найдётся информация о носке-потеряшке, валяющемся под вашей кроватью. Кто знает — быть может, такие мелкие детали, ускользающие от существующих практик оцифровки, являются критически важными для построения качественной модели мира? Как бы ни был велик цифровой след, но количество возможных последовательностей действий человека в окружающем его мире на много порядков больше. Возможно, лишь активное взаимодействие с миром позволит получить критически важную для формирования универсального интеллекта обратную связь.
- И наконец, а так ли мало количество данных, проходящих через мозг человека в процессе его жизни? Пропускная способность сетчатки человеческого глаза составляет порядка 8,75 Мбит в секунду[5], что даёт нам около 720 экзабайт за 10 лет жизни. Это всего лишь примерно в 120 раз меньше, чем накоплено человечеством цифровых данных на 2023 год. А ведь мы взяли в расчёт только зрение, хотя есть ещё слух и другие чувства.
Вероятно, расширить возможности нашего Паганеля можно за счёт использования обучения с подкреплением (особенно с подкреплением от людей), создания интернет-воплощений системы ИИ (для её взаимодействия с людьми и другими системами через глобальную сеть с целью применения методов обучения с подкреплением и активного обучения), создания специальных обучающих сред, физических воплощений (пусть и ограниченных) и т. д. В той или иной мере эти подходы опробуются сегодня во многих упоминавшихся нами проектах и моделях — от Gato и Robotic Transformer до I-JEPA и MAToM-DM.
Так или иначе, современная дорожная карта движения от существующих моделей к AGI может включать в себя:
- развитие мультимодальных архитектур (прежде всего чтобы полностью использовать весь потенциал цифрового следа человечества);
- увеличение количества и качества используемых данных (в том числе исследование влияния данных на метрики моделей и создание высокоэффективных конвейеров по сборке, фильтрации и подготовке данных);
- дальнейшее масштабирование моделей и осуществление всё более крупных вычислительных экспериментов;
- создание эффективных методов постоянного дообучения и активного сбора данных;
- развитие методов RL/RLHF (обучение с подкреплением / обучение с подкреплением с обратной связью от людей);
- создание более эффективных рекуррентных архитектур и моделей с адаптивным временем вычисления;
- исследование более эффективных целевых функций обучения;
- развитие технологий интернет-воплощения и активного обучения;
- развитие новых аппаратных архитектур и методов оптимизации.
По мере продвижения в направлении создания AGI человечество сможет создавать новые полностью автоматизированные системы и процессы там, где мы этого пока не умеем. Но гораздо важнее то, что подобно тому, как развитие других инструментов и технологий позволило компенсировать ряд ограничений, свойственных человеческому телу (одежда и тёплые дома позволили компенсировать недостаточно густой мех и толстую кожу, ножи — недостаточно острые зубы и ногти и т. п.), технологии ИИ позволят нам всё дальше раздвигать границы возможного для человеческого разума. «Невооружённому» человеческому разуму свойственен целый ряд ограничений, которые вполне могут быть преодолены с помощью развитых технологий искусственного интеллекта. Вот некоторые из таких ограничений:
- ограничения по скорости;
- ограниченная надёжность (ошибки, связанные с утратой внимания, и т. п.);
- ограниченный параллелизм (при одновременном решении нескольких задач эффективность решения каждой из них снижается);
- коммуникативные ограничения (ограниченная пропускная способность сенсорной и моторной систем);
- барьеры физической хрупкости (люди способны работать лишь в узком диапазоне значений параметров окружающей среды);
- ограниченность ума, приводящая к невозможности анализа слишком сложных систем;
- ограниченность памяти;
- ограниченные экспертные навыки и знания отдельного человека;
- нехватка инициативы и креативности (ограниченная фантазия некоторых людей, прокрастинация);
- барьеры масштабирования (невозможность быстро изменять количество задействованных в решении задачи экспертов с требуемыми навыками).
Хотя мы не можем с уверенностью сказать, какие именно исследования и проекты позволят нам достичь наибольшего прогресса в деле создания AGI, одно можно сказать с уверенностью: сегодня сфере ИИ как воздух нужны новые специалисты — исследователи, разработчики, управленцы. Требуется постоянное повышение уровня грамотности людей, принимающих решения, влияющие на дальнейшее развитие этой сферы. Цена неправильного выбора, промедления, неверной расстановки приоритетов в области ИИ в наши дни может быть очень высокой, а верные стратегические и тактические решения могут привести к не меньшему успеху.
- ↑ Levin J.-C., Maas M. M. (2020). Roadmap to a Roadmap: How Could We Tell When AGI is a 'Manhattan Project' Away? // https://arxiv.org/abs/2008.04701
- ↑ Bengio Y., Deleu T., Hu E. J., Lahlou S., Tiwari M., Bengio E. (2021). GFlowNet Foundations // https://arxiv.org/abs/2111.09266
- ↑ Koetsier J. (2022). Building an artificial brain: 86B neurons, 500T synapses, and a neuromorphic chip / YouTube, Mar 9, 2022 // https://www.youtube.com/watch?v=WEymRJb0dso
- ↑ Yadlowsky S., Doshi L., Tripuraneni N. (2023). Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models // https://arxiv.org/abs/2311.00871
- ↑ Reilly M. (2006). Calculating the speed of sight / New Scientist, 28 July 2006. // https://www.newscientist.com/article/dn9633-calculating-the-speed-of-sight/