Извлечение того, что мы знаем

Извлечение знания

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_de { background: url(../images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(../images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Credit: All_Is_Magic

Гигантский размер и сложность сегодняшних генеративных моделей GPT (предварительно обученный трансформер) просто поражают воображение. GPT-3 от OpenAI, например, имеет около 175 миллиардов параметров, и есть предположения, что у GPT-4 их может быть до 10 триллионов. a

Все это требует огромных затрат на облачные ресурсы, включая вычислительные циклы и энергопотребление. В настоящее время мощность компьютера, необходимая для обучения передовых моделей искусственного интеллекта (ИИ), увеличивается в 15 раз каждые два года. b Стоимость обучения большой модели GPT может составлять миллионы долларов. c Переобучение модели для установки на устройство, такое как ноутбук или смартфон, может значительно увеличить стоимость.

В результате возникает растущая потребность в уменьшении моделей GPT без потери важных характеристик. Во многих случаях оригинальные параметры, необходимые для создания модели, уже не требуются после создания готовой модели GPT. Поэтому с помощью различных техник, включая квантование, разреженность, обрезку и другие методы дистилляции, можно уменьшить размер модели с незначительным влиянием на производительность.

В январе 2023 года пара исследователей из Института науки и технологии Австрии (ISTA) перенесла границы дистилляции знаний и сжатия модели в новую область. С помощью комбинации квантования, обрезки и слойной дистилляции они обнаружили способ уменьшить размер модели GPT на 50% сразу, без переобучения и с минимальной потерей точности. SparseGPT эффективно работает с моделями размером от 10 до 100+ миллиардов параметров.

Метод глубокого обучения, используемый для достижения этого, SparseGPT , d может стать отправной точкой для более практичных форм генеративного ИИ, включая системы, настроенные и оптимизированные для конкретных пользователей, например, туристических агентов, врачей или страховых агентов, а также адаптирующиеся к поведению и потребностям каждого человека. Кроме того, возможность загрузки даже уменьшенных моделей GPT на устройства может привести к гораздо большей безопасности и защите конфиденциальных данных, удерживая их вне облака.

“Возможность сжатия и запуска этих мощных языковых моделей на устройствах-конечных точках предоставляет мощные возможности”, – говорит Дэн Алистарх, профессор ISTA и соавтор научной статьи SparseGPT. “Мы работаем над тем, чтобы найти способ обеспечить точные и надежные результаты, а не позволить модели сломаться и стать непригодной к использованию. Это значительный шаг вперед”.

Наверх

Разрушение модели

Идея сжатия ИИ-моделей не является новой. Уже в 1980-х годах исследователи начали исследовать способы упрощения данных. Точно так же, как человеческий мозг может уменьшать синапсы и переобучаться, они узнали, что часто можно избавиться от ненужных параметров без значительного снижения логики и результатов. В случае моделей GPT цель – уменьшить размер модели, но доставить в основном те же результаты.

“Когда вы начинаете обучать модель, важно иметь большое количество параметров. Мы эмпирически установили, что большие модели проще обучать и лучше извлекают значимую информацию из данных, когда они перепараметризованы”, – говорит Амир Голами, исследователь крупных языковых моделей и ИИ в Университете Калифорнии, Беркли. Однако, как только процесс обучения завершен и достигнута сходимость, “уже не обязательно сохранять все эти параметры для получения точных результатов”, – говорит он.

Фактически, “исследователи обнаружили, что в некоторых случаях можно получить такой же тип производительности от крупной языковой модели, например, GPT, которая в 100 раз меньше оригинала, без ухудшения ее возможностей”, – говорит Голами. Вопрос в том, какие параметры следует удалить и каким образом лучше всего выполнить эту задачу с точки зрения эффективности и экономичности. Это не такая уж маленькая проблема, потому что создание и повторное обучение модели GPT может потребовать тысячи часов работы GPU, и затраты могут подниматься в миллионах долларов.

Ученые-данные используют несколько техник для сжатия моделей, таких как GPT-4 и Google’s Bard. В квантовании точность, используемая для представления параметров, снижается с 16 бит до 4 бит; это уменьшает размер модели в 4 раза. По мере уменьшения размера модели эти модели могут помещаться в меньшее количество графических процессоров, и их задержка вывода и энергопотребление снижается. Этот подход помогает избежать довольно недавнего явления, когда рабочие нагрузки сталкиваются с ‘стеной памяти’. “Это означает, что узким местом уже не является то, насколько быстро вы можете выполнять вычисления, а то, насколько быстро вы можете подавать данные в систему. Так что меньше байтов – лучше”, – говорит Голами.

Другая широко используемая техника – разреженность, которая заключается в удалении ненужных значений, не влияющих на данные. Ее можно рассматривать как квантование с нулевыми битами. Структурированная разреженность включает удаление целых групп параметров, что упрощает реализацию и часто приводит к прямым увеличениям эффективности. Однако недостатком является то, что это жертвует точностью ради скорости, потому что сложно удалить большое количество групп, не отрицательно влияющих на модель. Неструктурированная разреженность удаляет избыточные параметры без каких-либо ограничений по шаблону разреженности. В результате можно сохранить точность модели даже при ультравысоких уровнях разреженности.

Ученые-данные используют эти подходы и другие, такие как обрезка, которая полностью удаляет отдельные параметры, чтобы непрерывно уменьшать объем памяти и вычислительные накладные расходы этих моделей. Полученные усовершенствованные и сжатые модели работают быстрее, потребляют меньше энергии и в некоторых случаях даже дают лучшие результаты. Как объясняет Голами, “в результате вы получаете более компактную, но более эффективную ИИ-структуру”.

Наверх

Изучение языка ИИ

Подход, который ученые-данные используют для сжатия и упрощения модели GPT, требует “учительской” сети для обучения “студенческой” сети. “Система учится приблизительно к программе, которая уже существует. Она отображает функцию, которую вы уже можете вычислить”, – говорит Кристофер Де Са, доцент Кафедры вычислительных наук в Корнеллском университете. “Таким образом, в случае нейронной сети вы пытаетесь построить модель, которая имеет такую же точность, как уже существующая нейронная сеть, но меньшего размера”.

Разреженность заключается в удалении ненужных значений, не влияющих на данные. Ее можно рассматривать как квантование с нулевыми битами.

Проблема заключается в том, что для этих структур требуется огромные затраты на настройку и повторное обучение. “Они создают хорошие, небольшие модели, которые показывают низкую потерю и высокую точность. Кроме того, результаты не всегда являются репрезентативными для более крупной модели”, – говорит Де Са. Для многих приложений это изменение некоторых прогнозов приемлемо, поскольку уровень точности остается высоким. “Однако, если вам важны такие вещи, как конфиденциальность или безопасность, вы можете обнаружить, что большая сеть не соответствует ключевым требованиям, потому что вы делаете не те же самые прогнозы, что и оригинальная модель”, – добавляет он.

Масштабирование методов квантования, сокращения и дистилляции знаний также является вызовом, говорит Элиас Франтар, аспирант ИСТА и соавтор статьи SparseGPT. Например, многие из современных моделей GPT в 1 000 раз больше, чем всего несколько лет назад – и они продолжают расти с бешеной скоростью. “Это влияет на техники, которые вы используете для дистилляции модели. Сжатие модели с сотнями миллиардов параметров требует других мыслительных процессов и других техник”, – говорит он.

Таким образом, когда исследователи ИСТА запустили проект SparseGPT, они применили то, что Алистарх описывает как “универсальный подход швейцарского ножа”, объединяя сокращение, квантование и дистилляцию. Дуэт сосредоточился на решении вызова модульным способом, включая сжатие отдельных слоев сети, а затем объединение всех частей для создания полностью сжатой модели. Хотя этот метод привел к значительным улучшениям, он не является идеальным.

“Если бы вы могли оптимизировать все вместе, вы в конечном итоге получили бы лучшие возможные результаты”, – говорит Франтар. – “Но так как это в настоящее время невозможно, вопрос становится следующим: ‘как мы можем достичь наилучших результатов с ресурсами, с которыми мы работаем?'”

Вернуться наверх

Понижение шума, повышение сигналов

SparseGPT может быть не идеальным, но эта техника расширяет возможности сжатия модели GPT. Работая с самыми большими моделями с открытым исходным кодом, OPT175B и BLOOM-176B, алгоритм SparseGPT обрабатывал более 175 миллиардов параметров – примерно 320 гигабайт данных – менее чем за 4,5 часа, с уровнем нерегулярной разреженности до 60%. Было незначительное увеличение путаницы, и в конце исследователи смогли удалить более 100 миллиардов весов без значительного ухудшения производительности или точности.

Алгоритм основан на изобретательном подходе. Он успешно разбивает задачу сжатия всей модели на отдельные проблемы сжатия каждого слоя, каждая из которых является примером разреженной регрессии. Затем он решает эти подзадачи, итеративно удаляя веса, одновременно обновляя оставшиеся веса, чтобы компенсировать ошибку, возникающую в процессе удаления. Алгоритм достигает еще большей эффективности, замораживая некоторые веса в шаблоне, который максимизирует вычислительные ресурсы, требуемые во время выполнения алгоритма. Полученная точность и эффективность позволяют впервые работать с моделями с более чем 100 миллиардами параметров.

Удивительно, что одна графическая карта определяет данные, которые не являются необходимыми в модели, обычно за несколько часов, и представляет сжатую модель в единственном снимке без повторного обучения. “Одна из интересных вещей, которую мы обнаружили”, – говорит Алистарх, – “это то, что эти большие модели крайне устойчивы и устойчивы к цифровому шуму. Практически весь шум отфильтровывается при прохождении через модель, так что вы получаете сеть, оптимизированную для сжатия”.

Это открытие является хорошей новостью для разработчиков программного обеспечения и других, кто хотел бы создавать коммерческие приложения. В настоящее время различные сообщества энтузиастов и хакеров находят способы загрузки более компактных, не всегда лицензионных моделей GPT на устройства, включая Raspberry Pi, и исследователи Стэнфордского университета нашли способ создать GPT для общения за менее чем 600 долларов США. Однако команда Стэнфорда прекратила так называемого чат-бота Альпака в апреле 2023 года из-за “затрат на хостинг и неполноценности наших фильтров контента”, при этом заявив, что он показывал “очень похожую производительность” на CPT-3.5 от OpenAI.

Однако чтобы достичь следующего уровня дистилляции знаний и сжатия, исследователям придется продвигать квантование, сокращение, точную настройку и другие техники дальше. Алистарх считает, что увеличение вычислительной мощности может помочь, но также необходимо исследовать другие техники, включая разделение наборов данных на большее количество подгрупп, настройку алгоритмов и изучение разреженности весов. Это может привести к сжатию на 90% и более, говорит он.

Вернуться наверх

Важны результаты

В настоящее время никто не знает, насколько возможно сжатие при сохранении оптимальной производительности любой заданной модели, Де Са говорит, что он и другие продолжают исследовать варианты и подходы. Исследователи также говорят, что необходимо действовать осторожно. Например, изменения в модели могут означать, что результаты могут не иметь четкого семантического значения, или они могут привести к ошеломляющим результатам, включая галлюцинации, которые кажутся полностью обоснованными. “Мы должны сосредоточиться на сохранении свойств исходной модели помимо точности”, – говорит Де Са. – “Можно получить тот же уровень или даже лучший уровень точности, но иметь значительно разные прогнозы и результаты по сравнению с более крупной моделью”.

Другая проблема заключается в том, что люди загружают сложную модель искусственного интеллекта на устройство и используют ее для нечестных целей, включая создание бот-ферм, спам, фишинг, фейковые новости и другие незаконные действия. Алистарх признает, что это обоснованная озабоченность, и сообщество специалистов в области науки о данных должно тщательно рассмотреть этические аспекты использования модели GPT на устройстве. Это побудило многих исследователей воздержаться от публикации параметров обучения и другой информации, говорит Голами. В будущем исследователи и компании-разработчики программного обеспечения будут вынуждены рассмотреть, какие возможности разумно разместить на устройстве, и какие типы результатов и последствий являются неприемлемыми.

Тем не менее, SparseGPT и другие методы, которые уплотняют и сжимают большие языковые модели, останутся. Более эффективные модели значительно изменят вычисления и использование искусственного интеллекта для обработки естественного языка. “Помимо создания более эффективных моделей и экономии энергии, мы можем ожидать, что техники уплотнения и сжатия будут способствовать демократизации моделей GPT. Это может позволить людям контролировать свои данные и внедрять новые способы взаимодействия с машинами и между собой”, – говорит Де Са.

Дополнительная литература

Франтар, Э. и Алистарх, Д. SparseGPT: огромные языковые модели могут быть точно уплотнены одним шагом, ArXiv, Том abs/2301.00774, Январь 2, 2023; https://arxiv.org/pdf/2301.00774.pdf

Яо, З., Донг, З., Чжэн, З., Голами, А., Ю, Д. Тан, Э., Ван, Л., Хуанг, Ц., Ванг, Я., Махони, М.В., и Койтцер, К. HAWQ-V3: квантование двойных нейронных сетей, Доклады 38-й Международной конференции по машинному обучению, PMLR 139, 2021; http://proceedings.mlr.press/v139/yao21a/yao21a.pdf

Полино, А. Паскану, Р., и Алистарх, Д. Сжатие моделей с помощью усвоения и квантования, ArXiv, Том, abs/1802.05668, Февраль 15, 2018; https://arxiv.org/abs/1802.05668

Чи, Ж., Ренц, М., Дамле, А., и Де Са, С. Сжатие модели для нейронных сетей, Прогресс в нейроинформационных системах, Октябрь 31, 2022; https://openreview.net/forum?id=gtl9Hu2ndd

Цай, И., Хуа, У., Чен Х., Сух, Э., Де Са, С., и Чжан, З. Структурированное обрезание – всё, что вам нужно для обрезания сверточных нейронных сетей при инициализации, arXiv:2203.02549, Март 4, 2022; https://arxiv.org/abs/2203.02549

Вернуться наверх

Автор

Сэмюэл Грингард – автор и журналист из Уэст-Линна, Орегон, США.

Вернуться наверх

Сноски

a. https://neuroflash.com/blog/gpt-4-parameters-rumors-and-forecasts

b. https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

c. https://www.cnbc.com/2023/03/13/chatgpt-and-generative-ai-are-booming-but-at-a-very-expensive-price.html

d. https://arxiv.org/abs/2301.00774

e. https://stanforddaily.com/2023/04/02/how-stanford-researchers-attempted-to-make-a-new-chatgpt-with-less-than-600/

©2023 ACM  0001-0782/23/8

Разрешается создавать цифровые или бумажные копии частей или всего этой работы для личного использования или использования в классе без оплаты, при условии, что копии не создаются или распространяются с целью получения прибыли или коммерческой выгоды и что копии содержат данный уведомление и полную цитату на первой странице. Авторские права на компоненты этой работы, которые принадлежат другим лицам, чем ACM, должны быть соблюдены. Разрешается абстрагирование с указанием авторства. Любое иное копирование, воспроизводство, размещение на серверах или распространение в списках требует предварительного специального разрешения и/или оплаты. Запрос разрешения на публикацию следует направлять на адрес permissions@acm.org или факс (212) 869-0481.

Цифровая библиотека издается Ассоциацией вычислительных машин. Авторское право © 2023 ACM, Inc.