Перейти к содержанию

6.6.13 Другие творческие успехи машин

Материал из Охота на электроовец: Большая Книга Искусственного Интеллекта

Генеративные модели машинного обучения, созданные в последние годы, применяются в самых разных областях человеческой деятельности, требующих решения творческих задач. Например, за последние десять лет заключен ряд альянсов между командами, специализирующимися на создании алгоритмов для генеративной биохимии, и крупными фармкомпаниями. В частности, фармацевтический гигант Pfizer объявил о сотрудничестве с IBM Watson, другой — Sanofi — приобрёл компанию Genzyme и подписал соглашение о сотрудничестве с Recursion Pharmaceuticals. Лидер британской фармацевтики GlaxoSmithKline вступил в союз с компанией Exscientia, американский фармгигант Celgene — с Evotec, швейцарский Roche в лице своего дочернего предприятия Genentech использует технологии ИИ компании GNS Healthcare, один из лидеров мировой офтальмологии Santen объединил усилия с компанией twoXAR в поиске новых лекарств от глаукомы, а фонд Royal Free London NHS Foundation Trust заключил соглашение с компанией DeepMind в целях поиска эффективной терапии острой почечной недостаточности и так далее[1], [2].

Для поиска новых лекарств-кандидатов в наши дни активно применяют модели, основанные на трансформерах. Например, при помощи трансформеров успешно предсказывают результаты химических реакций, что позволяет эффективнее отбирать наиболее интересные молекулы[3].

В соответствии с данными исследования, проведённого специалистами компании MarketsAndMarkets, прогнозируется, что к 2024 г. мировой рынок технологий ИИ для открытия лекарств достигнет 1434 млн долларов США, по сравнению с 259 млн долларов США в 2019 г., при среднегодовом росте около 40% в течение прогнозируемого периода[4].

Настоящая революция произошла под влиянием генеративных моделей в современной химии. Разработанный профессором Артёмом Огановым эффективный метод предсказания кристаллических структур[5], основанный на эволюционном алгоритме, стал основой системы USPEX (Universal Structure Predictor: Evolutionary Xtallography, Универсальный предсказатель структур эволюционной кристаллографии)[6], которую в наши дни используют более 6000 исследователей во всём мире. При помощи USPEX Оганову удалось предсказать сверхтвёрдую структуру бора[7], прозрачную фазу натрия[8], новый сверхтвёрдый аллотроп углерода[9], стабильные соединения гелия и натрия[10], а также, казалось бы, невозможные соединения, такие как Na3Cl[11]. Впоследствии эти предсказания удалось подтвердить экспериментально, что существенно повлияло на основы современной химии и материаловедения. Разработанные Огановым теоретические методы позволяют предсказывать и получать материалы с заданными свойствами.

Благодаря нейросетевым моделям удалось значительно продвинуться в решении задачи предсказания пространственной структуры белков [protein structure prediction] — одной из самых важных целей теоретической химии и биоинформатики. Информация о структуре белка используется в медицине (например, в фармацевтике) и биотехнологиях (например, при создании новых ферментов).

В ноябре 2020 г. в Nature вышла статья «Это изменит всё: ИИ DeepMind совершает гигантский скачок в решении [задачи предсказания] белковых структур» (‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures)[12], написанная по результатам прошедших в августе того же года соревнований CASP14 (14th Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction, 14-й общественный эксперимент по критической оценке методов прогнозирования структуры белка). Система AlphaFold, разработанная специалистами DeepMind, уже становилась победительницей предыдущих соревнований CASP двумя годами ранее, но в 2020 г. результаты новой версии системы оказались потрясающими. AlphaFold 2 практически достигла точности, соответствующей возможностям современных дорогостоящих лабораторных методов. «Это меняет правила игры», — говорит Андрей Лупас, биолог-эволюционист из Института биологии развития Общества Макса Планка в Тюбингене, который оценивал эффективность команд, участвовавших в CASP. AlphaFold уже помог ему найти структуру белка, над которой его лаборатория билась в течение десяти лет. «Это изменит медицину. Это изменит исследования. Это изменит биоинженерию. Это всё изменит», — добавляет Лупас.

После успеха AlphaFold 2 многие команды постарались на основе доступной информации создать собственную версию системы и получили неплохие результаты (здесь можно отметить, например, проект RoseTTAFold[13]). А в июле 2021 г. авторы AlphaFold наконец опубликовали исходный код своей системы и статью с её детальным описанием: «Высокоточное предсказание структуры белка с помощью AlphaFold» (Highly accurate protein structure prediction with AlphaFold)[14].

Первые результаты не заставили себя ждать. Когда в конце ноября 2021 г. Всемирная организация здравоохранения объявила о присвоении новому варианту SARS-CoV-2 под кодовым названием B.1.1.529 наименования Omicron, исследователь Колби Форд из Университета Северной Каролины применил AlphaFold 2 к последовательности аминокислот этого вируса и опубликовал полученные результаты в Сети. Форд поделился предсказанной AlphaFold 2 формой S-белка вируса, а также высказал соображения о том, что Omicron, по всей видимости, должен быть более устойчив ко многим имеющимся на данный момент вакцинам и лекарствам[15], [16]. После того как были получены лабораторные результаты исследования структуры белков вируса, выяснилось, что предсказания AlphaFold 2 были весьма точны: позиции центральных атомов в построенной модели отличались от реальных на совсем небольшие величины, приблизительно равные радиусу атома водорода[17]. В конце июля 2022 г. DeepMind опубликовала огромную базу данных (AlphaFold Protein Structure Database, База данных структур белков AlphaFold), включающую в себя предсказанные AlphaFold 2 трёхмерные структуры около 200 миллионов белков (т. е. практически всех известных нам белков на планете)[18].

В середине 2021 г. исследователи из Google рассказали в журнале Nature об успешном применении системы, основанной на обучении с подкреплением, для автоматической разработки новых интегральных схем. Новая система может менее чем за шесть часов спроектировать чип, на разработку которого у людей уходят месяцы, причём данный способ был с успехом опробован на практике при разработке нового TPU четвёртой версии от Google. По мнению создателей системы, достигнутый прогресс может серьёзно повлиять на весь полупроводниковый сектор[19], позволив компаниям проводить крупномасштабные архитектурные исследования.

«Разработка лекарств, белков, квантовая химия, новые материалы — только подумайте, возможно, не за горами появление сверхпроводника, работающего при комнатной температуре, — говорит Демис Хассабис, глава DeepMind. — Я мечтал о таком с тех пор, как был ребёнком и читал книги по физике»[20].

Генеративные модели создают новые молекулы, новые структуры композитных материалов[21], проектируют инженерные конструкции[22], верстают сайты[23], придумывают дизайн промышленных изделий[24] и интерьера помещений[25], логотипы[26] и даже новые архитектуры нейросетевых моделей[27]. За последние годы исследователи Google опубликовали сразу несколько работ[28], [29], [30], [31], посвящённых этому направлению — обычно его называют AutoML (Automated machine learning, автоматическое машинное обучение).

Успехи нейросетевых моделей в области обработки естественного языка привели к тому, что исследователи попытались повторить эти успехи в смежной области — обработке языков программирования (Programming language processing, PLP). Практически для любой задачи из области NLP можно найти аналог в мире PLP. Например, задача машинного перевода соответствует задачам трансляции текста программы в псевдокод или машинный код, перевода текста программ с одного языка программирования на другой, а также декомпиляции. Задача генерации текста на естественном языке в мире PLP становится задачей генерации текста программы (например, автозавершение вводимого текста программы или даже генерация текста программы по его описанию на естественном языке). Сентимент-анализу соответствует поиск дефектов в программном коде (например, ошибок или уязвимостей) и так далее. Неудивительно, что в мире PLP сегодня господствуют родственники популярных NLP-моделей. Например, основанная на трансформерах модель PLBART[32] приходится ближайшей родственницей модели BART[33], модель CodeBERT[34] основана на BERT, GPT-C[35] — на GPT-2, code2vec[36] отсылает нас к word2vec и так далее. В последние годы на основе подобных моделей появился целый ряд инструментов разработки, быстро завоевавших популярность, например Kite[37], TabNine[38] или Copilot[39]. В начале февраля 2022 г. собственную модель для генерации кода, получившую название AlphaCode, представила и DeepMind. Модель справляется с решением задачек на сайте соревнований по спортивному программированию Codeforces на уровне, не уступающем средним программистам[40]. Сегодня генеративные трансформерные модели, получая на вход текстовые описания, справляются с генерацией кода[41], [42] и даже с созданием несложных приложений[43], а в задаче поиска дефектов и уязвимостей в коде они уже превосходят статические анализаторы кода, основанные на обширных наборах правил[44], [45], [46].

В последнее время появилось и несколько открытых моделей, предназначенных для работы с программным кодом, например: InCoder[47], CodeGen[48], SantaCoder[49], StarCoder[50], Code Llama[51], WizardCoder[52] и Replit Code[53].

Впрочем, не стоит предаваться чрезмерному оптимизму и думать, что с появлением таких моделей, как BERT, T5 или GPT-3, все творческие задачи в областях, где данные по своей структуре напоминают текст, уже решены или будут решены в ближайшее время. Точно так же не следует думать, что генеративно-состязательные сети в сочетании с глубокими свёрточными сетями раз и навсегда сделали творческие задачи, связанные со всем, что напоминает изображения, тривиальными. Ограничения реального мира в виде нехватки данных или вычислительных мощностей остаются серьёзными препятствиями на пути эффективного машинного творчества. Например, существующие базы данных расшифрованных последовательностей ДНК людей в сумме составляют немногим больше миллиона записей. Медицинская и биологическая информация нередко разбросана по сотням и тысячам относительно небольших баз данных, доступ исследователей к которым ограничен действующими законами и коммерческой тайной. С расшифрованными последовательностями ДНК других организмов дела обстоят не многим лучше — стоимость секвенирования пока что достаточно высока, и не все лаборатории стремятся предоставить открытый доступ к собранным ими данным. Если бы эта информация была столь же доступной, как фотографии или тексты, это могло бы помочь в создании генеративных моделей для разработки новых лекарств, генной терапии, генно-модифицированных организмов (для медицинских и других целей) и так далее. Но люди, к большому сожалению исследователей, выкладывают в социальные сети фотографии своих котиков, а не результаты секвенирования ДНК. Большие модели, подобные GPT-3, требуют при обучении не только гигантских объёмов данных, но и выдающихся вычислительных затрат, которые в наши дни по карману лишь крупным корпорациям. Кроме того, эти модели требуют больших объёмов вычислений не только на этапе обучения, но и на этапе использования.

Конечно, все эти трудности преодолимы, хотя всякий раз, когда развитие технологии предполагает необходимость дать ответ на существующие вызовы, почти всегда возникает хор пессимистов, спешащих заявить: «Этот барьер не преодолеть!» В действительности история науки показывает, что в большинстве случаев непреодолимые препятствия существуют только в головах людей. В исследовательских лабораториях уже сейчас создаются новые модели машинного обучения, в том числе более вычислительно эффективные и менее требовательные к объёмам используемых данных. Продолжается и прогресс в области вычислительной техники, в том числе и в создании специализированных устройств для задач машинного обучения. Стремясь поддержать исследователей, государства во всём мире ищут способы упростить доступ к данным для учёных. Продолжается развитие краудсорсинговых платформ. Всё это значит, что прогресс в области машинного решения творческих задач будет продолжаться и уже в ближайшем будущем нас ждёт множество новых результатов и удивительных открытий.

  1. Mak K.-R., Pichika M. R. (2019). Artificial intelligence in drug development: present status and future prospects / Drug Discovery Today, Vol. 24, Iss. 3, March 2019, pp. 773—780 // https://doi.org/10.1016/j.drudis.2018.11.014
  2. Fleming N. (2018). How artificial intelligence is changing drug discovery / Nature, Vol. 557, S55-S57 (2018) // https://doi.org/10.1038/d41586-018-05267-x
  3. Grand G. (2020). Training Transformers for Practical Drug Discovery with Tensor2Tensor / Reverie Labs Engineering Blog, Apr 20, 2020 // https://blog.reverielabs.com/transformers-for-drug-discovery/
  4. Artificial Intelligence (AI) in Drug Discovery Market (2019). Report Code: HIT 7445 / MarketsAndMarkets, Nov 2019 // https://www.marketsandmarkets.com/Market-Reports/ai-in-drug-discovery-market-151193446.html
  5. Oganov A. R., Glass C. W. (2006). Crystal structure prediction using ab initio evolutionary techniques: principles and applications / Journal of Chemical Physics, Vol. 124, p. 244704 // https://doi.org/10.1063/1.2210932
  6. USPEX Computational Materials Discovery // https://uspex-team.org/
  7. Oganov A. R., Chen J., Gatti C., Ma Y.-Z., Ma Y.-M., Glass C. W., Liu Z., Yu T., Kurakevych O. O., Solozhenko V. L. (2009). Ionic high-pressure form of elemental boron / Nature, Vol. 457, pp. 863—867 // https://doi.org/10.1038/nature07736
  8. Ma Y., Eremets M. I., Oganov A. R., Xie Y., Trojan I., Medvedev S., Lyakhov A. O., Valle M., Prakapenka V. (2009). Transparent dense sodium / Nature, Vol. 458, pp. 182—185 // https://doi.org/10.1038/nature07786
  9. Li Q., Ma Y., Oganov A. R., Wang H., Wang H., Xu Y., Cui T., Mao H.-K., Zou G. (2009). Superhard monoclinic polymorph of carbon / Physical Review Letters, Vol. 102, p. 175506 // https://doi.org/10.1103/physrevlett.102.175506
  10. Dong X., Oganov A. R., Goncharov A. F., Stavrou E., Lobanov S., Saleh G., Qian G. R., Zhu Q., Gatti C., Deringer V. L., Dronskowski R., Zhou X. F., Prakapenka V. B., Konôpková Z., Popov I. A., Boldyrev A. I., Wang H. T. (2017). A stable compound of helium and sodium at high pressure / Nature Chemistry, Vol. 9, pp. 440—445 // https://doi.org/10.1038/nchem.2716
  11. Zhang W. W., Oganov A. R., Goncharov A. F., Zhu Q., Boulfelfel S. E., Lyakhov A. O., Stavrou E., Somayazulu M., Prakapenka V. B., Konopkova Z. (2013). Unexpected stoichiometries of stable sodium chlorides / Science, Vol. 342, pp. 1502—1505 // https://doi.org/10.1126/science.1244989
  12. Callaway E. (2020). ‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures / Nature, Vol. 588, pp. 203—204 // https://doi.org/10.1038/d41586-020-03348-4
  13. Baek M., DiMaio F., Anishchenko I., Dauparas J., Ovchinnikov S., Lee G. R., Wang J., Cong Q., Kinch L. N., Schaeffer R. D., Millán C., Park H., Adams C., Glassman C. R., DeGiovanni A., Pereira J. H., Rodrigues A. V., van Dijk A. A., Ebrecht A. C., Opperman D. J., Sagmeister T., Buhlheller C., Pavkov-Keller T., Rathinaswamy M. K., Dalwadi U., Yip C. K., Burke J. E., Garcia K. C., Grishin N. V., Adams P. D., Read R. J., Baker D. (2021). Accurate prediction of protein structures and interactions using a 3-track network // https://www.biorxiv.org/content/10.1101/2021.06.14.448402v1
  14. Jumper J., Evans R., Pritzel A., Green T., Figurnov M., Ronneberger O., Tunyasuvunakool K., Bates R., Žídek A., Potapenko A., Bridgland A., Meyer C., Kohl S. A. A., Ballard A. J., Cowie A., Romera-Paredes B., Nikolov S., Jain R., Hassabis D. (2021). Highly accurate protein structure prediction with AlphaFold / Nature, 15 July 2021 // https://doi.org/10.1038/s41586-021-03819-2
  15. Ford C. T. (2021). Protein Structure Prediction of the new B.1.1.529 SARS-CoV-2 Spike Variant with AlphaFold2 / Colby T. Ford, PhD, Nov 27, 2021 // https://colbyford.medium.com/protein-structure-prediction-of-b-1-1-529-sars-cov-2-spike-variant-with-alphafold2-39c5bf9cf9ed
  16. Ford C. T., Machado D. J., Janies D. A. (2021). Predictions of the SARS-CoV-2 Omicron Variant (B.1.1.529) Spike Protein Receptor-Binding Domain Structure and Neutralizing Antibody Interactions // https://doi.org/10.1101/2021.12.03.471024
  17. Simonite T. (2022). This AI Software Nearly Predicted Omicron’s Tricky Structure / Wired, 01.10.2022 // https://www.wired.com/story/ai-software-nearly-predicted-omicrons-tricky-structure/
  18. Hassabis D. (2022). AlphaFold reveals the structure of the protein universe / DeepMind blog, July 28, 2022 // https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universe
  19. Jiang J. W., Songhori E., Wang S., Lee Y.-J., Johnson E., Pathak O., Nazi A., Pak J., Tong A., Srinivasa K., Hang W., Tuncer E., Le Q. V., Laudon J., Ho R., Carpenter R., Dean J. (2021). A graph placement methodology for fast chip design / Nature, Vol. 594, pp. 207—212 // https://doi.org/10.1038/s41586-021-03544-w
  20. Gershgorn D. (2017). DeepMind has a bigger plan for its newest Go-playing AI / Quartz, October 18, 2017 // https://qz.com/1105509/deepminds-new-alphago-zero-artificial-intelligence-is-ready-for-more-than-board-games/
  21. Ren F., Ward L., Williams T., Laws K. J., Wolverton C., Hattrick-Simpers J., Mehta A. (2018). Accelerated discovery of metallic glasses through iteration of machine learning and high-throughput experiments / Science Advances, Vol. 4, No. 4 // https://doi.org/10.1126/sciadv.aaq1566
  22. Hornby G. S., Globus A., Linden D. S., Lohn J. D. (2006). Automated antenna design with evolutionary algorithms // https://doi.org/10.2514/6.2006-7242
  23. Robinson A. (2019). Sketch2code: Generating a website from a paper mockup // https://arxiv.org/abs/1905.13750
  24. Dosovitskiy A., Springenberg J. T., Tatarchenko M., Brox T. (2014). Learning to Generate Chairs, Tables and Cars with Convolutional Networks // https://arxiv.org/abs/1411.5928
  25. Spilka D. (2018). What Does AI mean for Interior Design? / MIPIM World Blog, May 3, 2018 // https://blog.mipimworld.com/innovation/ai-artificial-intelligence-mean-interior-design/
  26. Злобин А. (2020). Студия Лебедева больше года выдавала искусственный интеллект за реального дизайнера / Forbes, 26.06.2020 // https://www.forbes.ru/newsroom/tehnologii/403795-studiya-lebedeva-bolshe-goda-vydavala-iskusstvennyy-intellekt-za-realnogo
  27. Jin H., Song Q., Hu X. (2018). Auto-Keras: An Efficient Neural Architecture Search System // https://arxiv.org/abs/1806.10282
  28. Zoph B., Le Q. V. (2016). Neural Architecture Search with Reinforcement Learning // https://arxiv.org/abs/1611.01578
  29. Kaiser L., Gomez A. N., Shazeer N., Vaswani A., Parmar N., Jones L., Uszkoreit J. (2017). One Model To Learn Them All // https://arxiv.org/abs/1706.05137
  30. Howard A., Sandler M., Chu G., Chen L.-C., Chen B., Tan M., Wang W., Zhu Y., Pang R., Vasudevan V., Le Q. V., Adam H. (2019). Searching for MobileNetV3 // https://arxiv.org/abs/1905.02244v5
  31. Xiong Y., Liu H., Gupta S., Akin B., Bender G., Kindermans P.-J., Tan M., Singh V., Chen B. (2020). MobileDets: Searching for Object Detection Architectures for Mobile Accelerators // https://arxiv.org/abs/2004.14525v2
  32. Ahmad W. U., Chakraborty S., Ray B., Chang K.-W. (2021). Unified Pre-training for Program Understanding and Generation // https://arxiv.org/abs/2103.06333
  33. Lewis M., Liu Y., Goyal N., Ghazvininejad M., Mohamed A., Levy O., Stoyanov V., Zettlemoyer L. (2019). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension // https://arxiv.org/abs/1910.13461
  34. Feng Z., Guo D., Tang D., Duan N., Feng X., Gong M., Shou L., Qin B., Liu T., Jiang D., Zhou M. (2020). CodeBERT: A Pre-Trained Model for Programming and Natural Languages // https://arxiv.org/abs/2002.08155
  35. Svyatkovskiy A., Deng S. K., Fu S., Sundaresan N. (2020). IntelliCode Compose: Code Generation Using Transformer // https://arxiv.org/abs/2005.08025
  36. Alon U., Zilberstein M., Levy O., Yahav E. (2018). code2vec: Learning Distributed Representations of Code // https://arxiv.org/abs/1803.09473
  37. kite. Code Faster. Stay in Flow // https://www.kite.com/
  38. TabNine. Code faster with AI completions // https://www.tabnine.com/
  39. Copilot. Your AI pair programmer // https://copilot.github.com/
  40. Li Y., Choi D., Chung J., Kushman N., Schrittwieser J., Leblond R., Eccles T., Keeling J., Gimeno F., Lago A. D., Hubert T., Choy P., de Masson d’Autume C., Babuschkin I., Chen X., Huang P.-S., Welbl J., Gowal S., Cherepanov A., Molloy J., Mankowitz D. J., Robson E. S., Kohli P., de Freitas N., Kavukcuoglu K., Vinyals O. (2022). Competition-Level Code Generation with AlphaCode // https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf
  41. Perez L., Ottens L., Viswanathan S. (2021). Automatic Code Generation using Pre-Trained Language Models // https://arxiv.org/abs/2102.10535
  42. Langston J. (2021). From conversation to code: Microsoft introduces its first product features powered by GPT-3 / Microsoft/The AI Blog, May 25, 2021 // https://blogs.microsoft.com/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/
  43. Hasan M., Mehrab K. S., Ahmad W. U., Shahriyar R. (2021). Text2App: A Framework for Creating Android Apps from Text Descriptions // https://arxiv.org/abs/2104.08301
  44. Lin G., Wen S., Han Q.-L., Zhang J., Xiang Y. (2020). Software Vulnerability Detection Using Deep Neural Networks: A Survey / Proceedings of the IEEE, Vol. 108, Iss. 10, pp. 1825—1848 // https://doi.org/10.1109/JPROC.2020.2993293
  45. Wu J. (2021). Literature review on vulnerability detection using NLP technology // https://arxiv.org/abs/2104.11230
  46. Ziems N., Wu S. (2021). Security Vulnerability Detection Using Deep Learning Natural Language Processing // https://arxiv.org/abs/2105.02388
  47. Fried D., Aghajanyan A., Lin J., Wang S., Wallace E., Shi F., Zhong R., Yih W.-T., Zettlemoyer L., Lewis M. (2022). InCoder: A Generative Model for Code Infilling and Synthesis // https://arxiv.org/abs/2204.05999
  48. Nijkamp E., Pang B., Hayashi H., Tu L., Wang H., Zhou Y., Savarese S., Xiong C. (2022). CodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis // https://arxiv.org/abs/2203.13474
  49. Allal L. B., Li R., Kocetkov D., Mou C., Akiki C., Ferrandis C. M., Muennighoff N., Mishra M., Gu A., Dey M., Umapathi L. K., Anderson C. J., Zi Y., Poirier J. L., Schoelkopf H., Troshin S., Abulkhanov D., Romero M., Lappert M., Toni F. D., de Río B. G., Liu Q., Bose S., Bhattacharyya U., Zhuo T. Y., Yu I., Villegas P., Zocca M., Mangrulkar S., Lansky D., Nguyen H., Contractor D., Villa L., Li J., Bahdanau D., Jernite Y., Hughes S., Fried D., Guha A., de Vries H., von Werra L. (2023). SantaCoder: don't reach for the stars! // https://arxiv.org/abs/2301.03988
  50. Li R., Allal L. B., Zi Y., Muennighoff N., Kocetkov D., Mou C., Marone M., Akiki C., Li J., Chim J., Liu Q., Zheltonozhskii E., Zhuo T. Y., Wang T., Dehaene O., Davaadorj M., Lamy-Poirier J., Monteiro J., Shliazhko O., Gontier N., Meade N., Zebaze A., Yee M., Umapathi L. K., Zhu J., Lipkin B., Oblokulov M., Wang Z., Murthy R., Stillerman J., Patel S. S., Abulkhanov D., Zocca M., Dey M., Zhang Z., Fahmy N., Bhattacharyya U., Yu W., Singh S., Luccioni S., Villegas P., Kunakov M., Zhdanov F., Romero M., Lee T., Timor N., Ding J., Schlesinger C., Schoelkopf H., Ebert J., Dao T., Mishra M., Gu A., Robinson J., Anderson C. J., Dolan-Gavitt B., Contractor D., Reddy S., Fried D., Bahdanau D., Jernite Y., Ferrandis C. M., Hughes S., Wolf T., Guha A., von Werra L., de Vries H. (2023). StarCoder: may the source be with you! // https://arxiv.org/abs/2305.06161
  51. Rozière B., Gehring J., Gloeckle F., Sootla S., Gat I., Tan X. E., Adi Y., Liu J., Remez T., Rapin J., Kozhevnikov A., Evtimov I., Bitton J., Bhatt M., Ferrer C. C., Grattafiori A., Xiong W., Défossez A., Copet J., Azhar F., Touvron H., Martin L., Usunier N., Scialom T., Synnaeve G. (2023). Code Llama: Open Foundation Models for Code // https://arxiv.org/abs/2308.12950
  52. Luo Z., Xu C., Zhao P., Sun Q., Geng X., Hu W., Tao C., Ma J., Lin Q., Jiang D. (2023). WizardCoder: Empowering Code Large Language Models with Evol-Instruct // https://arxiv.org/abs/2306.08568
  53. Replit, Inc. (2023). replit-code-v1-3b // https://huggingface.co/replit/replit-code-v1-3b
Loading comments...