6.6.6 Фундаментальные модели и новые перспективы
Появление моделей, подобных BERT, GPT, T5 и так далее, заставило исследователей говорить о появлении нового класса моделей машинного обучения, получившего название «фундаментальные модели» [foundation models], и даже о смене парадигмы современного ИИ. В рамках Стэнфордского института человекоориентированного ИИ (Stanford Institute for Human-Centered Artificial Intelligence, HAI) был основан Центр исследования фундаментальных моделей (Center for Research on Foundation Models, CRFM), программное исследование которого, увидевшее свет в августе 2021 г., получило название «О возможностях и рисках фундаментальных моделей» (On the Opportunities and Risks of Foundation Models)[1].
Прогресс в области создания фундаментальных моделей вселяет надежду на то, что именно это направление станет магистральной дорогой в создании универсального искусственного интеллекта. Появление ChatGPT стало впечатляющей демонстрацией возможностей современных технологий генеративного ИИ и заставило многих людей пересмотреть перспективы этого направления. Если раньше многие скептики полагали, что создание искусственной интеллектуальной системы, способной сравниться с разумом человека, — дело далёкого будущего, то сегодня многие из них уже не столь непреклонны в своём пессимизме. Однако, несмотря на новую волну энтузиазма, важно понимать, что, прежде чем современные фундаментальные модели смогут стать универсальным инструментом решения интеллектуальных задач, их создателям предстоит дать ответы на целый ряд вызовов и преодолеть ограничения существующих подходов. Давайте рассмотрим некоторые из них и порассуждаем о наиболее перспективных методах, призванных решить имеющиеся проблемы.
1. Обучение и даже выполнение больших сетей потребляет значительные вычислительные ресурсы. Для борьбы с этой проблемой создаются более совершенные аппаратные устройства, а также более эффективные схемы вычисления для трансформерных нейросетей. Например, алгоритм FlashAttention позволяет сократить время вычисления блока внимания на современных тензорных устройствах более чем вдвое[2], а его новая версия FlashAttention-2 — и вовсе добиться более чем четырёхкратного ускорения[3]. Ещё одним способом сокращения вычислительных затрат является так называемая квантизация — процесс создания приближённой версии нейронной сети за счёт кодирования её весов числами с меньшей разрядностью. Например, вместо 32-битных чисел мы можем использовать 8-битные (а иногда и числа с ещё меньшей разрядностью, вплоть до одного бита — в последнем случае квантизацию называют бинаризацией[4]). Квантизация значительно снижает как требования к памяти, так и вычислительные затраты на выполнение (инференс) сетей. Второе достигается за счёт того, что современные процессоры имеют встроенные векторные и матричные операции в режимах пониженной точности. Конечно, такие фокусы не проходят бесследно — снижается точность работы сети. Однако современные подходы позволяют минимизировать эти потери или компенсировать их[5], [6]. Существует два основных подхода к квантизации нейронных сетей: квантизация после обучения (Post-Training Quantization, PTQ) и обучение с учётом квантизации (Quantization-Aware Training, QAT). PTQ преобразует веса и активации модели в числа с более низкой точностью после обучения, в то время как QAT включает квантизацию во время обучения. Квантизации может подвергаться как вся сеть, так и лишь отдельные её слои. Добавление отдельно обучаемых неквантизованных слоёв на выход квантизованной сети может компенсировать потери точности от квантизации. Комбинируя низкоранговую адаптацию (LoRA) с квантизацией, исследователи из Вашингтонского университета научились дообучать модель LLaMA с 65 млрд параметров всего на одном GPU с 48 Гб оперативной памяти[7]. А преподаватель Корнеллского университета Александр Раш продемонстрировал, что благодаря различным оптимизациям квантизованная версия LLaMA 2 с 70 млрд параметров может генерировать текст, используя центральный процессор обычного ноутбука (правда, скорость генерации при этом составляет лишь около 5 токенов в минуту)[8].
Также в сокращении затрат на обучение моделей могут помочь две интересные группы методов. Первая основана на идее постепенного увеличения размера модели по мере обучения. Сама идея не нова — её использовал Алексей Ивахненко в своём методе группового учёта аргументов (МГУА) ещё в начале 1970-х гг., к ней обращались Джеффри Хинтон и его коллеги в своих глубоких сетях доверия (DBN). В наши дни её опробовали[9] создатели модели FLM-101B — благодаря постепенному увеличению размера нейросети в процессе обучения им удалось обучить модель со 101 млрд параметров, потратив на это всего 100 000 долларов.
Вторая группа методов основана на идее постепенного усложнения заданий по мере обучения модели. Это направление в машинном обучении носит название «Обучение на базе учебного курса» [Curriculum learning][10], [11]. Усложнение может заключаться, например, в увеличении размера контекста (рецептивного поля) модели по мере обучения (в простом случае обучение может разделяться на две стадии: на первой модель обучается на более коротких последовательностях, а на второй — на более длинных)[12], [13], [14] или в отборе для более поздних шагов обучения тех примеров из обучающей выборки, на которых обучаемая (или более простая) модель ошибается сильнее всего (такой подход называют «использованием сложных примеров» [Exploiting Hard Samples])[15], [16].
2. Ограниченная длина контекста (рецептивного поля) классических трансформеров. Мы уже говорили об этой проблеме в предыдущем разделе, когда рассказывали о трудностях, испытываемых современными генеративными моделями при написании длинных текстов. Объём вычислений, производимых базовым строительным элементом классических трансформеров — блоком многоголового внутреннего внимания, — растёт пропорционально квадрату длины контекста[17]. Замедлить этот рост можно лишь ценой некоторых потерь в точности. Следовательно, актуальным становится вопрос о том, какие методы могут позволить увеличить длину контекста моделей оптимальным образом, чтобы не оставить без внимания все важные «дальнодействующие» зависимости внутри моделируемых последовательностей. Причём проблема эта относится к работе не только с длинными текстами, но и с мультимодальными данными, где она приобретает особенную остроту. Например, если мы имеем дело с мультимодальным диалогом (содержащим помимо текстовых частей картинки и звуковые сообщения), то число токенов в обрабатываемых последовательностях сильно возрастает — их нужно довольно много, чтобы закодировать звук или изображение без потери существенных деталей.
Для борьбы с этой проблемой создаются различные уже упоминавшиеся нами механизмы разреженного внимания, а также нейросети, дополненные памятью (MANN), уже упоминавшиеся нами в разделах 6.2.4 и 6.3.4.3. Тем не менее, несмотря на наличие различных многообещающих прототипов, общепринятого решения этой проблемы пока не найдено, и, как нередко бывает в современной науке, многие идеи, изначально казавшиеся перспективными, при более скрупулёзном рассмотрении не приносят ожидаемого успеха. В 2022 г. исследователи из Google Research и DeepMind тщательно протестировали различные варианты трансформерных архитектур, в том числе созданные с целью увеличения длины контекста, и пришли к неутешительному выводу: «серебряной пули»[18] для решения этой проблемы пока что не найдено[19]. Поэтому активные изыскания в этой области продолжаются.
3. Современные многослойные трансформеры не являются рекуррентными сетями, значит, число «шагов рассуждения» при вычислении сети конечно — это мешает моделям выполнять многие нехитрые алгоритмы (арифметические действия с большими числами, сортировка больших списков, «перевёртывание» длинных списков или текста, подсчёт элементов и т. д.).
Внимательный читатель может задаться вопросом: если вышесказанное верно, то каким же образом сервисы, подобные ChatGPT или GigaChat, способны генерировать ответы практически произвольной длины? В действительности, как мы уже рассказывали ранее, нейросети, подобные GPT-3 или ruGPT-3.5, на выходе дают лишь распределение вероятностей для следующего токена в последовательности. Сама же последовательность генерируется не нейросетью, а алгоритмом семплирования, который выбирает токены из распределения, предсказываемого нейросетью. Этот алгоритм основан обычно на нехитрой системе правил и не является продуктом машинного обучения. Сигналом окончания генерации является специальный токен, обозначающий конец текста, или же превышение заданного лимита длины последовательности. Таким образом, система, состоящая из генеративной языковой модели и алгоритма семплирования, действительно способна выполнить почти неограниченное число шагов рассуждения, однако не способна самостоятельно вырабатывать последовательность из необходимых для решения задачи шагов. Конечно, можно попытаться дообучить языковую модель на диалогах, содержащих между вопросом пользователя и правильным ответом некоторое количество прописанных в явном виде шагов рассуждения. Например:
Пользователь: Какое слово получится, если перевернуть слово «база»?
Система: Для решения этой задачи предпримем следующие шаги:
1. Берём пустую строку и слово «база».
2. Удаляем из слова «база» последнюю букву и прибавляем её к нашей строке, получаем строку «а» и слово «баз».
3. Удаляем из слова «баз» последнюю букву и прибавляем её к нашей строке, получаем строку «аз» и слово «ба».
4. Удаляем из слова «ба» последнюю букву и прибавляем её к нашей строке, получаем строку «аза» и слово «б».
5. Удаляем из слова «б» последнюю букву и прибавляем её к нашей строке, получаем строку «азаб» и пустое слово.
Теперь буквы в слове кончились, а полученная нами строка «азаб» будет ответом на заданный вопрос.
Ответ: азаб
Этот подход получил название «Цепь рассуждений» [Chain-of-Thought]. Он позволяет справиться с некоторыми несложными задачами, требующими нескольких шагов рассуждения, но, к сожалению, для его использования необходима специальная разметка обучающих данных и он подходит пока лишь для сравнительно простых задач[20].
Этот подход вполне можно расширить до деревьев рассуждений [Tree of Thoughts][21], а дальше и до графов[22] и гиперграфов, почему бы и нет? Вообще одной из очевидных идей для решения проблем 2 и 3 является создание гибридных архитектур, которые могут быть получены в результате добавления рекуррентных связей в трансформерные модели. Но сделать это можно очень разными способами. Вероятно, первая попытка была предпринята в 2018 г., когда группа исследователей из DeepMind и Google Brain предложила архитектуру под названием «универсальный трансформер» [Universal Transformer]. В ней сигналы (активации) циркулируют внутри кодирующей и декодирующей частей сети до тех пор, пока не будет превышено заданное максимальное число шагов или на выходе специальной подсети, ответственной за динамическую остановку [dynamic halting], не будет сгенерирован соответствующий сигнал[23]. В последующие годы другие исследовательские группы предложили ряд альтернативных рекуррентно-трансформерных архитектур, например: R‑Transformer[24], Transformer-XL[25], Looped Transformer[26] и так далее.
Вообще важным классом моделей машинного обучения являются модели с адаптивным временем вычисления [Adaptive Computation Time] [27], [28] , [29]. Идея этого подхода в том, что в модель встраивается механизм, позволяющий ей самостоятельно принимать решение о завершении вычислений, если решение, соответствующее заданным критериям, уже найдено, и продолжать вычисления, если необходимые критерии ещё не достигнуты. При этом сами критерии остановки также могут быть выучены моделью. Действительно, во многих интеллектуальных задачах для получения конечного результата в некоторых сложных случаях может потребоваться значительно больше вычислений, чем в более простых. При таком подходе вы можете динамически решать, как долго следует обрабатывать входные данные, обучая нейронную сеть автоматически адаптироваться к различным ситуациям. Например, при игре в шахматы в некоторых позициях мы делаем очевидные ходы практически мгновенно, в то время как сложные комбинации требуют длительного расчёта. Для того чтобы отсортировать список чисел из двух элементов, нужны лишь мгновения, а сортировка списка из миллиарда чисел даже у современного компьютера потребует заметных затрат времени.
Хотя мейнстримные исследования сосредоточены в наши дни вокруг трансформерных моделей, ряд исследовательских групп продолжает работу над развитием рекуррентных архитектур. Мы уже упоминали некоторые из них, такие как AWD-LSTM, Mogrifier LSTM и LEM. Вот ещё некоторые заслуживающие внимания работы последних лет: LRU (Linear Recurrent Unit, Линейный рекуррентный блок)[30], RWKV (Receptance Weighted Key Value, Взвешенные на восприимчивость пары «ключ, значение») [31] и различные модификации так называемых «моделей пространства состояний» (State Space Models, SSM), такие как, например, H3 (Hungry Hungry Hippos, Голодные-голодные бегемоты) [32], S4 (Structured State Space sequence, Структурное пространство состояний для последовательностей) [33], [34], Liquid S4 (Liquid Structural State-Space Models, Плавные модели структурного пространства состояний) [35], S4D (S4 с диагональными матрицами состояний)[36], S5 (Simplified Structured State Space sequence, Упрощённое структурное пространство состояний для последовательностей) [37]. В 2023 г. исследователи из компании Microsoft предложили свою альтернативу классическим трансформерам — так называемые «сохраняющие сети» (Retentive Network, RetNet), сочетающие механизмы параллельной, рекуррентной и поблочно-рекуррентной обработки элементов последовательности. Эксперименты, поставленные создателями новой модели, продемонстрировали, что, начиная с моделей размером более 6 млрд параметров, сети, построенные на RetNet-блоках, превосходят трансформерные нейросети в точности. Кроме того, сохраняющие сети способны работать с длинными контекстами и требуют значительно меньше памяти и вычислений на этапе выполнения (инференса)[38].
4. Генеративные языковые модели нередко ошибаются в фактах (особенно не в самых общеизвестных) и могут откровенно фантазировать (этот эффект в наши дни часто называют «галлюцинациями» моделей; в результате галлюцинаций нередко возникают такие феномены, как фактоиды (от англ. factoid, от англ. fact — факт и -oid — от др.-греч. εἶδος — форма, вид, — «принимающий вид факта») — недостоверные или ложные утверждения, которые по форме напоминают достоверные). Генеративные модели в каком-то смысле напоминают студента, припёртого преподавателем на экзамене к стенке вопросом, ответ на который студент не знал либо успешно забыл. Многие студенты знают, что молчать в таких случаях не следует. Примерно то же «знает» и генеративная модель, в инструктивном датасете которой просто очень мало примеров того, как на вопрос пользователя следует ответ «Я не знаю». В итоге на свет и появляется правдоподобная чепуха.
5. Знания моделей без дообучения устаревают. Здесь могут помочь современные методы постоянного обучения [continuous learning].
6. Некоторые интеллектуальные задачи пока что лучше решают специализированные модели и даже системы, основанные на правилах. Например, задачи классификации и регрессии со сравнительно небольшим числом параметров лучше решают такие методы, как градиентный бустинг или леса случайных деревьев.
7. Большие модели склонны заучивать клише (многократно повторённые в обучающих выборках последовательности).
Также в качестве ответа на проблемы, обозначенные в пунктах 2–6, получили развитие так называемые мультиэкспертные, или интерактивные, подходы. К области мультиэкспертности в данном случае относят методы, предполагающие усиление возможностей фундаментальных нейросетевых моделей за счёт создания механизмов их взаимодействия с другими моделями, системами, сервисами (в том числе акторами, т. е. исполняющими системами) и различными аппаратными устройствами. Человеческий мозг так же, как и большие трансформерные модели, не слишком подходит для того, чтобы, например, перемножать шестизначные числа. В таких случаях мы обычно хватаемся за калькулятор. Для поиска или проверки фактов мы обращаемся в поисковую систему. Для ведения заметок используем записную книжку. Почему бы не предоставить генеративной нейросети аналогичную возможность? Эта идея возникала у исследователей неоднократно. Например, сходные соображения мы находим в статье, посвящённой модели LaMDA (название модели отсылает нас к лямбда-исчислению Чёрча, намекая на возможность рекуррентного вызова функций)[39], в работах «Toolformer: языковые модели могут научиться использовать инструменты» [Toolformer: Language Models Can Teach Themselves to Use Tools][40], «ToolkenGPT: расширение возможностей замороженных языковых моделей за счёт использования большого числа инструментов с помощью векторных вложений инструментов» [ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings][41], «GPT4Tools: обучение больших языковых моделей использованию инструментов путём самоинструктирования» [GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction], «HuggingGPT: решение задач ИИ с помощью ChatGPT и его друзей на платформе Hugging Face» [HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face][42], «Gorilla: большая языковая модель, соединённая со множеством API» [Gorilla: Large Language Model Connected with Massive APIs][43] в материалах по плагинам для ChatGPT[44] и так далее.
Вопрос об объединении генеративной и поисковой (экстрактивной) моделей[45], [46] начал изучаться ещё в начале 2010-х гг. Ему посвящена, например, работа 2011 г. «KenLM: более быстрые и компактные вызовы языковых моделей» [KenLM: Faster and Smaller Language Model Queries][47]. Впрочем, тогда исследователей больше интересовали не вопросы борьбы с галлюцинациями или увеличения длины контекста языковых моделей, а то, как можно повысить скорость их работы. В трансформерную эпоху к вопросу объединения генерации и поиска обращались исследователи из DeepMind («Улучшение языковых моделей путём поиска по триллионам токенов» [Improving language models by retrieving from trillions of tokens][48]), Meta («Улучшенная за счёт поиска генерация для задач обработки естественного языка, требующих интенсивного использования знаний» [Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks][49]), Стэнфордского университета («Показать-Найти-Предсказать: объединение поисковых и языковых моделей для обработки естественного языка, требующей интенсивного использования знаний» [Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP][50]) и так далее.
Идея гетерогенной нейросимвольной архитектуры, в которой входящие в ансамбль нейросети, символьные модели и другие подсистемы будут сообща действовать для решения поставленной пользователем задачи, вызывает ассоциации с теорией, разработанной в 1970—1980-е гг. Минским и Пейпертом и изложенной в книге Минского «Сообщество разума» [Society of Mind][51]. В ней Минский шаг за шагом конструирует модель человеческого интеллекта, построенную на взаимодействии простых частей, называемых агентами. И хотя каждый из агентов в отдельности не является разумным, их взаимодействие порождает то, что мы и называем разумом. «Какой хитрый трюк делает нас разумными? Фишка в том, что никакой хитрости нет, — пишет Минский. — Сила интеллекта проистекает из нашего огромного разнообразия, а не из какого-то одного принципа, отточенного до совершенства».
Конечно, схема взаимодействия агентов (экспертов) и сама их природа в мультиэкспертных системах может быть очень разной. При некоторых допущениях «сообществами разума» можно считать и генеративные языковые модели, оснащённые механизмом плагинов, и MoE-сети, и системы, состоящие из нескольких языковых моделей, осуществляющих мозговой штурм на естественном языке[52], и генеративных агентов, «живущих» в упрощённой симуляции мира[53], и системы, в которых модель-агент обучается решать различные задачи, «интервьюируя» другую сеть, являющуюся моделью среды[54], а то и вовсе произвольные ансамбли моделей. В целом подход этот является весьма продуктивным и способен послужить основой для множества различных систем.
Один из основателей DeepMind Мустафа Сулейман считает, что именно интерактивная парадигма станет фундаментом нового поколения систем ИИ:
Первая волна ИИ касалась классификации. Глубокое обучение показало, что мы можем научить компьютер классифицировать различные типы входных данных: изображения, видео, аудио, язык. Сейчас мы находимся в генеративной волне, когда вы берете входные данные и создаете новые данные.
Третья волна будет интерактивной фазой. Вот почему я уже давно уверен, что диалог — это интерфейс будущего. Знаете, вместо того, чтобы просто нажимать на кнопки и печатать, вы будете разговаривать со своей системой ИИ.
И эти системы будут способны совершать действия. Вы просто дадите системе общую цель высокого уровня, и она будет использовать все имеющиеся у неё инструменты для достижения этой цели. Системы будут разговаривать с другими людьми, разговаривать с другими системами. Это то, что мы собираемся сделать с Pi (перспективной системой от DeepMind. — С. М.).
Это огромный сдвиг в том, на что способны технологии. Это очень, очень глубокий момент в истории технологий, который, я думаю, многие люди недооценивают. Сегодняшние технологии статичны. Грубо говоря, современные системы делают то, что вы им говорите.
Но теперь технологии будут оживлены. У системы будет потенциальная свобода действий, если вы её дадите. То, что мы создаём инструменты, обладающие такой, знаете ли, свободой воли, является настоящим шагом в истории нашего вида[55].
Современные NLP-модели, основанные на трансформерах, существенно раздвинули границы доступного машинам в области естественного языка, в том числе в отношении творческих задач. При этом возможности машин во многом остаются недоиспользованными — из-за нехватки специалистов и вычислительных мощностей многие идеи пока что повисают в воздухе. Да и те, кто генерирует идеи, не всегда в курсе возможностей, предоставляемых современными моделями. Такая ситуация сложилась в силу быстрого прогресса в области обработки естественного языка. Статьи, рассказы и стихи, написанные машинами, будут всё в большей мере становиться частью нашей обыденной жизни уже в ближайшие десятилетия, и нам ещё предстоит осознать то, как именно это изменит человеческое общество.
При этом важно заметить, что появление эффективных генеративных текстовых моделей вовсе не означает, что машины заменят писателей или поэтов. Куда более реалистичным видится сценарий, в котором такие модели будут использоваться писателями и поэтами для повышения производительности и улучшения качества своего труда. Уже много лет люди, профессионально занимающиеся написанием текстов, используют в работе электронных помощников, и это не только текстовые редакторы и системы проверки орфографии. Например, для авторов, занятых написанием русскоязычных текстов в информационном стиле (например, описаний товаров и услуг для коммерческих сайтов), существует сервис «Главред» (glvrd.ru), который позволяет отследить стилистические огрехи или оценить читаемость текста. Для тех, кто пишет на английском языке, есть онлайн-сервис Grammarly (grammarly.com). Ежедневно к его услугам прибегает 30 млн человек[56]. Есть и другие инструменты, которыми с удовольствием пользуются писатели. Для тех, кто работает над объёмными литературными произведениями, существуют программы (такие, например, как WriteItNow или WriteWay), помогающие писателю выстраивать сюжетную линию, формировать календарь событий, вести учёт меняющихся во времени отношений между героями.
NLP-модели могут помогать не только писателю или редактору, но и читателю. Мы уже привыкли к таким инструментам, как поиск по текстовым документам или автоперевод, но благодаря достижениям в области обработки естественного языка в последнее десятилетие появились новые полезные возможности. Например, приложение Summly, созданное ещё в начале 2010-х гг., стало одним из первых инструментов для суммаризации (реферирования) текстов: оно позволяло сжать длинный текст до нескольких ключевых предложений. Summly может читать за вас новости, «отжимать из них воду» и создавать короткие дайджесты длиной не более 400 слов. Интересно, что разработал эту систему английский школьник Ник Д’Алойсио. В 2013 г. основанный школьником стартап приобрела компания Yahoo!, и сумма сделки, по слухам, составила 30 млн долларов[57]. В январе 2014 г. Д’Алойсио объявил о запуске Yahoo News Digest [Дайджест новостей Yahoo] — усовершенствованной версии Summly. Это приложение предоставляло мобильным пользователям сводку важных новостей дня в форме дайджеста, выходящего два раза в день[58]. В том же году приложение завоевало престижную награду Apple Design Award[59]. В наши дни существует множество инструментов для суммаризации текстов на разных языках[60], [61], в том числе и на русском (один из таких инструментов был разработан нашей командой[62]). Обычно их основой являются большие языковые трансформерные модели.
В последние годы получила развитие ещё одна функция языковых моделей, представляющая пользу как для читателей, так и для писателей. Речь идёт о проверке фактов (фактчекинге). Современные языковые модели способны обнаруживать в текстах сомнительные с точки зрения достоверности или спорные утверждения, сверяя их с информацией источников, считающихся достойными доверия[63], [64], [65], [66], [67], [68]. Такие инструменты могут предохранять читателей от заблуждений, а писателям (журналистам, блогерам и т. д.) позволяют создавать более качественный и проверенный контент.
Языковые модели также можно использовать для выявления спама или атак мошенников.
Словом, по мере развития генеративных текстовых моделей эпоха литературного творчества людей вовсе не заканчивается, а скорее переходит на новый уровень — так же, как это произошло с появлением печатного станка или текстовых редакторов для персональных компьютеров.
Во многом дальнейшая судьба таких сервисов, как ChatGPT или GigaChat, зависит от того, как общество воспринимает такие системы и как относится к ним. На мой взгляд, чрезвычайно важно прийти к пониманию того, чем современные генеративные нейросетевые модели являются и чем они совершенно точно не являются. Они — инструмент для генерации контента, подобный графическим или текстовым редакторам, но куда более продвинутый. Раньше людям приходилось рисовать всё от руки, самим выполнять штриховку и закраску, сегодня же этот труд можно переложить на плечи машины. Генеративные модели — это чрезвычайно удобные инструменты, которые потенциально могут нам помочь решить немало задач, сэкономив уйму времени. Это средства автоматизации, направленные на снижение трудозатрат при выполнении тех или иных задач. Это инструмент усиления возможностей нашего интеллекта: человек с калькулятором будет в большинстве случаев считать куда эффективнее коллеги без него, а человек с разумом, усиленным большой генеративной нейросетью, выполнит многие интеллектуальные задачи лучше человека, который не использует такой продвинутый инструмент. Также современные нейросети — это средства для генерации развлекательного контента. Такого рода системы сегодня вовсю используются просто для развлечения, генерации мемов, шуток. Такое направление нельзя недооценивать: движителем развития технологий во все времена часто становились развлечения. Вдобавок нейросетевые модели — демонстрация возможностей современных технологий искусственного интеллекта всему человечеству, включая инвесторов, учёных, специалистов из смежных областей науки и технологии.
При этом подобные системы не являются средствами массовой информации или официальными источниками мнений своих создателей. Высказывания ChatGPT не являются официальной точкой зрения компании OpenAI. Генеративные нейросети не являются сверхразумами, священными оракулами, источниками истины. Напрасно ждать от систем искусственного интеллекта, что они станут арбитрами, которые решат все проблемы человечества и отсеют правильные мнения от неправильных. Ни одну нынешнюю нейросетевую модель нельзя считать искусственной личностью — у них нет самосознания, нет собственных целей. И разумеется, нейросети — не средства пропаганды тех или иных идей. Множество людей, как только появилась возможность, бросилось задавать ChatGPT вопросы с целью выявления её идейных предпочтений. Таковы уж люди: в баталиях вокруг нейросетей мы наблюдаем отражение человеческого общества, ведь генеративные модели обучались на данных, собранных людьми. Иногда зеркало кого-то пугает, но к отражению нужно просто привыкнуть, оценить ту пользу, которую можно извлечь из наличия зеркал. И это, безусловно, вызов человечеству: сумеет ли оно извлечь из такого совершенного инструмента, как генеративные модели, пользу, а не вред?
- ↑ Bommasani R., Hudson D. A, Adeli E., Altman R., Arora S., von Arx S., Bernstein M. S., Bohg J., Bosselut A., Brunskill E., Brynjolfsson E., Buch S., Card D., Castellon R., Chatterji N., Chen A., Creel K., David J. Q., Demszky D., Donahue C., Doumbouya M., Durmus E., Ermon S., Etchemendy J., Ethayarajh K., Fei-Fei L., Finn C., Gale T., Gillespie L., Goel K., Goodman N., Grossman S., Guha N., Hashimoto T., Henderson P., Hewitt J., Ho D. E., Hong J., Hsu K., Huang J., Icard T., Jain S., Jurafsky D., Kalluri P., Karamcheti S., Keeling G., Khani F., Khattab O., Koh P. W., Krass M., Krishna R., Kuditipudi R., Kumar A., Ladhak F., Lee M., Lee T., Leskovec J., Levent I., Li X. L., Li X., Ma T., Malik A., Manning C. D., Mirchandani S., Mitchell E., Munyikwa Z., Nair S., Narayan A., Narayanan D., Newman B., Nie A., Niebles J. C., Nilforoshan H., Nyarko J., Ogut G., Orr L., Papadimitriou I., Park J. S., Piech C., Portelance E., Potts C., Raghunathan A., Reich R., Ren H., Rong F., Roohani Y., Ruiz C., Ryan J., Ré C., Sadigh D., Sagawa S., Santhanam K., Shih A., Srinivasan K., Tamkin A., Taori R., Thomas A. W., Tramèr F., Wang R. E., Wang W., Wu B., Wu J., Wu Y., Xie S. M., Yasunaga M., You J., Zaharia M., Zhang M., Zhang T., Zhang X., Zhang Y. (2021). On the Opportunities and Risks of Foundation Models // https://arxiv.org/abs/2108.07258
- ↑ Dao T., Fu D. Y., Ermon S., Rudra A., Ré C. (2022). FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness // https://arxiv.org/abs/2205.14135
- ↑ Dao T. (2023). FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning // https://arxiv.org/abs/2307.08691
- ↑ Shang Y., Yuan Z., Wu Q., Dong Z. (2023). PB-LLM: Partially Binarized Large Language Models // https://arxiv.org/abs/2310.00034
- ↑ Nagel M., Fournarakis M., Amjad R. A., Bondarenko Y., van Baalen M., Blankevoort T. (2021). A White Paper on Neural Network Quantization // https://arxiv.org/abs/2106.08295
- ↑ Gholami A., Kim S., Dong Z., Yao Z., Mahoney M. W., Keutzer K. (2021). A Survey of Quantization Methods for Efficient Neural Network Inference // https://arxiv.org/abs/2103.13630
- ↑ Dettmers T., Pagnoni A., Holtzman A., Zettlemoyer L. (2023). QLoRA: Efficient Finetuning of Quantized LLMs // https://arxiv.org/abs/2305.14314
- ↑ Rush A. (2023). llama2.rs // https://github.com/srush/llama2.rs
- ↑ Li X., Yao Y., Jiang X., Fang X., Meng X., Fan S., Han P., Li J., Du L., Qin B., Zhang Z., Sun A., Wang Y. (2023). FLM-101B: An Open LLM and How to Train It with $100K Budget // https://arxiv.org/abs/2309.03852
- ↑ Bengio Y., Louradour J., Collobert R., Weston J. (2009). Curriculum Learning / ICML '09: Proceedings of the 26th Annual International Conference on Machine Learning, pp. 41–48. // https://doi.org/10.1145/1553374.1553380
- ↑ Graves A., Bellemare M. G., Menick J., Munos R., Kavukcuoglu K. (2017). Automated Curriculum Learning for Neural Networks // https://arxiv.org/abs/1704.03003
- ↑ Li C., Zhang M., He Y. (2022). The Stability-Efficiency Dilemma: Investigating Sequence Length Warmup for Training GPT Models // https://openreview.net/forum?id=JpZ5du_Kdh
- ↑ Li S. (2023). Variable Sequence Length Training for Long-Context Large Language Models / Large Language Model, NLP, Deep Learning, Machine Learning, Blog, Developer Blog, July 22, 2023. // https://www.cerebras.net/blog/variable-sequence-length-training-for-long-context-large-language-models/
- ↑ DeepSpeed Data Efficiency: A composable library that makes better use of data, increases training efficiency, and improves model quality (2023). / deepspeed.ai, September 26, 2023. // https://www.deepspeed.ai/tutorials/data-efficiency/
- ↑ Fernandez J., Downey D. (2018). Sampling Informative Training Data for RNN Language Models / Proceedings of ACL 2018, Student Research Workshop, pp. 9–13. // https://doi.org/10.18653/v1/P18-3002
- ↑ Wang H., Huang M., Huang R., Hong L., Xu H., Hu T., Liang X., Li Z. (2023). Boosting Visual-Language Models by Exploiting Hard Samples // https://arxiv.org/abs/2305.05208
- ↑ Keles F. D., Hegde C. (2023). On The Computational Complexity of Self-Attention. / Proceedings of Machine Learning Research, Vol. 201, pp. 1–23, 2023 // https://proceedings.mlr.press/v201/duman-keles23a/duman-keles23a.pdf
- ↑ * Серебряная пуля — метафора, означающая простое решение сложной проблемы.
- ↑ Tay Y., Dehghani M., Abnar S., Chung H. W., Fedus W., Rao J., Narang S., Tran V. Q., Yogatama D., Metzler D. (2022). Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? // https://arxiv.org/abs/2207.10551
- ↑ Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models // https://arxiv.org/abs/2201.11903
- ↑ Yao S., Yu D., Zhao J., Shafran I., Griffiths T. L., Cao Y., Narasimhan K. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models // https://arxiv.org/abs/2305.10601
- ↑ Besta M., Blach N., Kubicek A., Gerstenberger R., Gianinazzi L., Gajda J., Lehmann T., Podstawski M., Niewiadomski H., Nyczyk P., Hoefler T. (2023). Graph of Thoughts: Solving Elaborate Problems with Large Language Models // https://arxiv.org/abs/2308.09687
- ↑ Dehghani M., Gouws S., Vinyals O., Uszkoreit J., Kaiser Ł. (2018). Universal Transformers // https://arxiv.org/abs/1807.03819
- ↑ Wang Z., Ma Y., Liu Z., Tang J. (2019). R-Transformer: Recurrent Neural Network Enhanced Transformer // https://arxiv.org/abs/1907.05572
- ↑ Dai Z., Yang Z., Yang Y., Carbonell J., Le Q. V., Salakhutdinov R. (2019). Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context // https://arxiv.org/abs/1901.02860
- ↑ Giannou A., Rajput S., Sohn J.-Y., Lee K., Lee J. D., Papailiopoulos D. (2023). Looped Transformers as Programmable Computers // https://arxiv.org/abs/2301.13196
- ↑ Graves A. (2016). Adaptive Computation Time for Recurrent Neural Networks // https://arxiv.org/abs/1603.08983
- ↑ Fojo D., Campos V., Giro-i-Nieto X. (2018). Comparing Fixed and Adaptive Computation Time for Recurrent Neural Networks // https://arxiv.org/abs/1803.08165
- ↑ Sapunov G. (2019). Adaptive Computation Time (ACT) in Neural Networks // https://moocaholic.medium.com/adaptive-computation-time-act-in-neural-networks-part-1-2a28484b53df
- ↑ Orvieto A., Smith S. L., Gu A., Fernando A., Gulcehre C., Pascanu R., De S. (2023). Resurrecting Recurrent Neural Networks for Long Sequences // https://arxiv.org/abs/2303.06349
- ↑ Peng B., Alcaide E., Anthony Q., Albalak A., Arcadinho S., Cao H., Cheng X., Chung M., Grella M., GV K. K., He X., Hou H., Kazienko P., Kocon J., Kong J., Koptyra B., Lau H., Mantri K. S. I., Mom F., Saito A., Tang X., Wang B., Wind J. S., Wozniak S., Zhang R., Zhang Z., Zhao Q., Zhou P., Zhu J., Zhu R. (2023). Reinventing RNNs for the Transformer Era // https://arxiv.org/abs/2305.13048
- ↑ Fu D. Y., Dao T., Saab K. K., Thomas A. W., Rudra A., Ré C. (2022). Hungry Hungry Hippos: Towards Language Modeling with State Space Models // https://arxiv.org/abs/2212.14052
- ↑ Gu A., Goel K., Ré C. (2021). Efficiently Modeling Long Sequences with Structured State Spaces // Статья: https://arxiv.org/abs/2111.00396
- ↑ Gu A., Johnson I., Timalsina A., Rudra A., Ré C. (2022). How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections // https://arxiv.org/abs/2206.12037
- ↑ Hasani R., Lechner M., Wang T.-H., Chahine M., Amini A., Rus D. (2022). Liquid Structural State-Space Models // https://arxiv.org/abs/2209.12951
- ↑ Gu A., Gupta A., Goel K., Ré C. (2022). On the Parameterization and Initialization of Diagonal State Space Models // https://arxiv.org/abs/2206.11893
- ↑ Smith J. T. H., Warrington A., Linderman S. W. (2022). Simplified State Space Layers for Sequence Modeling // https://arxiv.org/abs/2208.04933
- ↑ Sun Y., Dong L., Huang S., Ma S., Xia Y., Xue J., Wang J., Wei F. (2023). Retentive Network: A Successor to Transformer for Large Language Models // https://arxiv.org/abs/2307.08621
- ↑ Thoppilan R., Freitas D. D., Hall J., Shazeer N., Kulshreshtha A., Cheng H., Jin A., Bos T., Baker L., Du Y., Li Y., Lee H., Zheng H. S., Ghafouri A., Menegali M., Huang Y., Krikun M., Lepikhin D., Qin J., Chen D., Xu Y., Chen Z., Roberts A., Bosma M., Zhao V., Zhou Y., Chang C., Krivokon I., Rusch W., Pickett M., Srinivasan P., Man L., Meier-Hellstern K., Morris M. R., Doshi T., Santos R. D., Duke T., Soraker J., Zevenbergen B., Prabhakaran V., Diaz M., Hutchinson B., Olson K., Molina A., Hoffman-John E., Lee J., Aroyo L., Rajakumar R., Butryna A., Lamm M., Kuzmina V., Fenton J., Cohen A., Bernstein R., Kurzweil R., Aguera-Arcas B., Cui C., Croak M., Chi E., Le Q. (2022). LaMDA: Language Models for Dialog Applications // https://arxiv.org/abs/2201.08239
- ↑ Schick T., Dwivedi-Yu J., Dessì R., Raileanu R., Lomeli M., Zettlemoyer L., Cancedda N., Scialom T. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools // https://arxiv.org/abs/2302.04761
- ↑ Hao S., Liu T., Wang Z., Hu Z. (2023). ToolkenGPT: Augmenting Frozen Language Models with Massive Tools via Tool Embeddings // https://arxiv.org/abs/2305.11554
- ↑ Shen Y., Song K., Tan X., Li D., Lu W., Zhuang Y. (2023). HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face // https://arxiv.org/abs/2303.17580
- ↑ Patil S. G., Zhang T., Wang X., Gonzalez J. E. (2023). Gorilla: Large Language Model Connected with Massive APIs // https://arxiv.org/abs/2305.15334
- ↑ OpenAI (2023). ChatGPT plugins // https://openai.com/blog/chatgpt-plugins
- ↑ * Сегодня для такого синтеза часто используют термин «генерация, дополненная поиском» (Retrieval-augmented Generation, RAG).
- ↑ Schlag I., Sukhbaatar S., Celikyilmaz A., Yih W.-t., Weston J., Schmidhuber J., Li X. (2023). Large Language Model Programs // https://arxiv.org/abs/2305.05364
- ↑ Heafield K. (2011). KenLM: Faster and Smaller Language Model Queries // https://kheafield.com/papers/avenue/kenlm.pdf
- ↑ Borgeaud S., Mensch A., Hoffmann J., Cai T., Rutherford E., Millican K., van den Driessche G., Lespiau J.-B., Damoc B., Clark A., de Las Casas D., Guy A., Menick J., Ring R., Hennigan T., Huang S., Maggiore L., Jones C., Cassirer A., Brock A., Paganini M., Irving G., Vinyals O., Osindero S., Simonyan K., Rae J. W., Elsen E., Sifre L. (2021). Improving language models by retrieving from trillions of tokens // https://arxiv.org/abs/2112.04426
- ↑ Lewis P., Perez E., Piktus A., Petroni F., Karpukhin V., Goyal N., Küttler H., Lewis M., Yih W.-T., Rocktäschel T., Riedel S., Kiela D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // https://arxiv.org/abs/2005.11401
- ↑ Khattab O., Santhanam K., Li X. L., Hall D., Liang P., Potts C., Zaharia M. (2022). Demonstrate-Search-Predict: Composing retrieval and language models for knowledge-intensive NLP // https://arxiv.org/abs/2212.14024
- ↑ Minsky M. (1988). Society of Mind. Simon & Schuster Paperbacks // https://www.google.ru/books/edition/Society_Of_Mind/bLDLllfRpdkC
- ↑ Zhuge M., Liu H., Faccio F., Ashley D. R., Csordás R., Gopalakrishnan A., Hamdi A., Hammoud H. A. A. K., Herrmann V., Irie K., Kirsch L., Li B., Li G., Liu S., Mai J., Piękos P., Ramesh A., Schlag I., Shi W., Stanić A., Wang W., Wang Y., Xu M., Fan D.-P., Ghanem B., Schmidhuber J. (2023). Mindstorms in Natural Language-Based Societies of Mind // https://arxiv.org/abs/2305.17066
- ↑ Park J. S., O'Brien J. C., Cai C. J., Morris M. R., Liang P., Bernstein M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior // https://arxiv.org/abs/2304.03442
- ↑ Schmidhuber J. (2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning Controllers and Recurrent Neural World Models // https://arxiv.org/abs/1511.09249
- ↑ Heaven W. D. (2023). DeepMind’s cofounder: Generative AI is just a phase. What’s next is interactive AI / MIT Technology Review, September 15, 2023 // https://www.technologyreview.com/2023/09/15/1079624/deepmind-inflection-generative-ai-whats-next-mustafa-suleyman/
- ↑ https://www.grammarly.com/about
- ↑ Swisher K. (2013). Yahoo Paid $30 Million in Cash for 18 Months of Young Summly Entrepreneur’s Time / All Things D, March 25, 2013 // http://allthingsd.com/20130325/yahoo-paid-30-million-in-cash-for-18-months-of-young-summly-entrepreneurs-time/
- ↑ Newton C. (2014). Yahoo's sleek News Digest app swims against the stream / The Verge, Jan 8, 2014. // https://www.theverge.com/2014/1/7/5284300/yahoos-sleek-news-digest-app-swims-against-the-stream
- ↑ Panzarino M. (2014). Yahoo Wins Another Apple Design Award For News Digest App / TechCrunch, June 3, 2014. // https://techcrunch.com/2014/06/02/yahoo-wins-another-apple-design-award-for-news-digest-app/
- ↑ Text Summarization (2023). // https://paperswithcode.com/task/text-summarization
- ↑ Yadav D., Desai J., Yadav A. K. (2021). Automatic Text Summarization Methods: A Comprehensive Review // https://arxiv.org/abs/2204.01849
- ↑ Ахметгареева А. (2022). Практические применения генеративных моделей: как мы делали суммаризатор текстов / Хабр, 19 мая 2022. // https://habr.com/ru/companies/sberdevices/articles/666420/
- ↑ Kuzmin G., Larionov D., Pisarevskaya D., Smirnov I. (2020). Fake news detection for the Russian language // https://aclanthology.org/2020.rdsm-1.5.pdf
- ↑ Hoy N., Koulouri T. (2021). A Systematic Review on the Detection of Fake News Articles // https://arxiv.org/abs/2110.11240
- ↑ Xu W., Wu J., Liu Q., Wu S., Wang L. (2022). Evidence-aware Fake News Detection with Graph Neural Networks // https://arxiv.org/abs/2201.06885
- ↑ Ghadiri Z., Ranjbar M., Ghanbarnejad F., Raeisi S. (2022). Automated Fake News Detection using cross-checking with reliable sources // https://arxiv.org/abs/2201.00083
- ↑ Gong S., Sinnott R. O., Qi J., Paris C. (2023). Fake News Detection Through Graph-based Neural Networks: A Survey // https://arxiv.org/abs/2307.12639
- ↑ Singhania S., Fernandez N., Rao S. (2023). 3HAN: A Deep Neural Network for Fake News Detection // https://arxiv.org/abs/2306.12014