Основная защита данных для ускорения предприятия LLM с помощью Protopia AI

Основные меры защиты данных для ускорения развития предприятия LLM с использованием Protopia AI

Этот пост написан в сотрудничестве с Баладжи Чандразекараном, Дженнифер Цвагенберг и Эндрю Сэнсом, а также Эйманом Эбрахими из Protopia AI.

Новые и мощные модели языка (LLM) быстро меняют бизнес, улучшая эффективность и эффективность для различных корпоративных сценариев использования. Скорость имеет важное значение, и принятие технологий LLM может определить успех или провал конкурентного преимущества бизнеса. AWS особенно подходит для предоставления предприятиям инструментов, необходимых для развертывания LLM на масштабе, чтобы обеспечить критическое принятие решений.

При внедрении технологии генеративного ИИ у предприятий есть реальные опасения относительно раскрытия данных и владения конфиденциальной информацией, которая может быть отправлена LLM. Эти опасения в отношении конфиденциальности и защиты данных могут замедлить или ограничить использование LLM в организациях. Предприятиям требуется ответственный и безопасный способ отправки чувствительной информации моделям, не требующий высоких затрат на внедрение внутренних DevOps.

В этом посте описано, как вы можете преодолеть проблемы, связанные с сохранением владения данными и сохранением конфиденциальности данных при использовании LLM, развернув Stained Glass Transform от Protopia AI, чтобы защитить ваши данные. https://www.rupython.com/ Protopia AI сотрудничает с AWS, чтобы обеспечить критический компонент защиты данных и владения для безопасного и эффективного использования генеративного ИИ корпоративными предприятиями. Этот пост определяет решение и демонстрирует, как его можно использовать в AWS для популярных корпоративных сценариев использования, таких как Retrieval Augmented Generation (RAG) с использованием современных моделей LLM, таких как Llama 2.

Обзор Stained Glass Transform

Организации стремятся сохранить полное владение и контроль над своими конфиденциальными корпоративными данными. Это является основой ответственного ИИ и вновь возникающим требованием по защите данных и конфиденциальности за пределами базовых гарантий безопасности и юридических гарантий поставщиков LLM.

Хотя корпоративные бизнес-подразделения хотят использовать LLM для различных задач, они также беспокоятся о торговых секретах, интеллектуальной собственности и другой собственной информации, просачивающейся через данные, отправленные в эти модели. В то же время службы безопасности, соответствия требованиям, управления данными и информационные службы предприятий опасаются раскрытия или утечки текстовых данных о клиентах или других регулируемых данных за пределами предприятия. AWS и Protopia AI сотрудничают для предоставления критического компонента, решающего эту общую потребность корпоративных клиентов.

Stained Glass Transform (SGT) от Protopia AI решает эти проблемы, преобразуя незащищенные корпоративные данные в случайную перерепрезентацию, называемую RmoRed data, как показано на следующей иллюстрации. Эта представление является стохастическим вложением исходных данных, сохраняющим информацию, необходимую целевому LLM для работы, не раскрывая чувствительные запросы или контекст или данные тонкой настройки. Эта перерепрезентация является односторонним преобразованием, которое не может быть обратно преобразовано, обеспечивая полную конфиденциальность корпоративных данных и защиту от утечки текстовой конфиденциальной информации в LLM. Применение SGT не ограничивается только языковыми моделями. Для визуальных и структурированных данных также может быть сгенерированы случайные перерепрезентации. Название Stained Glass Transform происходит из визуального вида случайных перерепрезентаций визуальных данных, которые могут напоминать наблюдение данных через витражи, как продемонстрировано в этом варианте использования ВМС США.

SGT работает с современными моделями LLM, такими как Llama 2. На следующей иллюстрации показан пример применения SGT к модели Llama 2 для выполнения инструкций с добавлением уровня защиты для инструкций и контекста. В левой части иллюстрации показан пример финансового документа в качестве контекста с инструкцией, запрашивающей у модели суммаризацию документа. Внизу слева показан отклик, генерируемый Llama 2 при работе с исходным запросом. При использовании SGT вложения, связанные с этим запросом, преобразуются на стороне клиента в стохастические вложения, как описано более подробно позднее в этом посте. Внизу справа показано, что Llama 2 все равно может сгенерировать правильный ответ, если вместо незащищенных вложений отправлять данные RmoRed (вложения после пре-
образования). Вверху справа показано, что если данные RmoRed утекли, реконструкция исходного запроса приведет к непонятному тексту.

Для создания SGT для определенной модели, такой как Llama 2, Protopia AI предоставляет легковесную библиотеку под названием Stained Glass SDK, которая является расширением PyTorch. Как показано на следующей иллюстрации, после создания SGT он может быть интегрирован в процессы развертывания по нескольким путям. Преобразование, созданное с помощью SDK, может быть развернуто локально, в гибридной среде или полностью в облаке. Это возможно, потому что SGT разработан таким образом, чтобы быть легковесным процессом, требующим очень мало вычислительных ресурсов и имеющим минимальное влияние на критический путь вывода. Еще одной ключевой оценкой является сохранение точности модели с использованием повторно представленных данных. Мы наблюдаем, что при использовании повторно представленных данных точность сохраняется в пределах желаемых пределов для различных типов данных и вариаций моделей.

Такие варианты развертывания и поддержки точности позволяют уверенно использовать SGT всем заинтересованным сторонам в организации предприятия. Чтобы дополнительно защитить вывод модели LLM, Protopia AI может кодировать выходные данные запросов в представление, декодер которого доступен только владельцу данных предприятия.

Обзор решения

В предыдущем разделе было описано, как можно использовать технологию Stained Glass Transform в различных архитектурах. На следующей иллюстрации подробно описаны шаги создания, развертывания и использования SGT для LLM:

  • Создание SGT – Команда, обучающая базовую модель LLM (поставщики собственных LLM, облачные сервис-провайдеры или собственные команды по машинному обучению предприятий, создающие свои собственные LLM), запускает программное обеспечение Stained Glass SDK компании Protopia AI, не изменяя существующих практик по обучению и развертыванию LLM. После завершения обучения базовой модели SDK выполняет оптимизационный проход по языковой модели для вычисления SGT. Этот оптимизационный проход реализован через расширение PyTorch. SDK оборачивает базовую модель и математически находит уникальное Stained Glass Transform для этой LLM. Дополнительные подробности о лежащей в основе математике можно найти в сопроводительной статье. Обратите внимание, что поскольку команда, обучающая саму LLM, также запускает Stained Glass SDK, для выполнения этого шага не требуется выгрузка или отправка весов модели.
  • Релиз и развертывание SGT – SGT, полученный на предыдущем этапе оптимизации, развертывается как часть конвейера данных, подающего данные на обученную LLM. Как описано в предыдущем разделе, SGT находится на стороне клиента предприятия.
  • Использование SGT – SGT работает с запросами, создаваемыми предприятием, и генерирует защищенные запросы, которые отправляются в развернутую LLM. Это позволяет предприятию сохранить владение своими конфиденциальными запросами и контекстом. С помощью технологии Stained Glass от Protopia AI незащищенные конфиденциальные данные не выходят за пределы предприятия или зоны доверия.

Вы можете использовать Stained Glass SDK для создания SGT несколькими способами. Например, вы можете использовать Stained Glass SDK в самоуправляемых средах машинного обучения (ML) с Amazon Elastic Kubernetes Service (Amazon EKS) для обучения и вывода результатов, или непосредственно в Amazon Elastic Compute Cloud (Amazon EC2). Другой вариант – использовать его внутри Amazon SageMaker для создания SGT для заданной обученной модели. Преобразование входных данных для развертывания во время вывода от клиента не зависит от выбранной реализации развертывания.

Следующая фигура иллюстрирует возможную реализацию в самоуправляемой среде машинного обучения, где обучение Stained Glass Transform выполняется на Amazon EKS.

В этом рабочем процессе создается контейнер с использованием Stained Glass SDK и развертывается в Amazon Elastic Container Registry (Amazon ECR). Затем этот контейнер развертывается на Amazon EKS для обучения SGT, который сохраняется в Amazon Simple Storage Service (Amazon S3). Если вы используете Amazon EC2, вы можете обучать трансформацию непосредственно на вашем экземпляре в рамках вашей настройки машинного обучения. Stained Glass SDK может работать на различных типах экземпляров, включая семейства экземпляров Amazon P5, P4 или G5, основанные на ваших требованиях к базовым требованиям LLM. После развертывания LLM для использования при выводе, клиентское приложение использует созданный SGT, который является легкой операцией, для преобразования подсказок и контекста перед отправкой их на LLM. Таким образом, на LLM выставляются только преобразованные данные, а исходные данные остаются на стороне клиента.

Следующая фигура демонстрирует, как можно обучать трансформацию и выполнять вывод на SageMaker.

Создание SGT следует аналогичному пути как настройка Amazon EKS путем взятия учебных данных из Amazon S3, обучения SGT на контейнере и сохранения его в Amazon S3. Вы можете использовать Stained Glass SDK в вашей существующей настройке SageMaker с помощью Amazon SageMaker Studio, записных книжек SageMaker и рабочей задачи SageMaker. LLM размещается в качестве конечной точки SageMaker, доступной клиентскому приложению. Вывод для клиентского приложения также идентичен настройке Amazon EKS, за исключением модели обслуживания.

Случайные представления для защиты подсказок LLM и данных тонкой настройки

В этом разделе рассматриваются различные варианты использования, демонстрирующие, как случайное представление защищает подсказки LLM. Примеры иллюстрируют основные последствия для предприятий, связанные с использованием генеративного ИИ: открываются новые возможности использования ИИ, ускоряется выход на рынок при правильной защите предприятий и сохранении владения конфиденциальными данными, необходимыми для использования в подсказках LLM.

Случай использования RAG

Популярный предприятый случай использования LLM – это Retrieval Augmented Generation (RAG). На следующей фигуре показано иллюстративный пример, где подсказки и источники защищены с использованием Stained Glass. Левая часть фигуры показывает незащищенные подсказки и информацию о источнике. При предприятой реализации RAG источниками могут быть содержаться конфиденциальные данные, такие как коммерческие секреты предприятия, интеллектуальная собственность или финансовая информация. Правая часть показывает наилучшую возможную восстановление в читаемом для человека тексте из созданных SGT пострадавших от RmoRed подсказок.

Мы можем заметить, что даже в наилучшем возможном восстановлении информация полностью обфусцирована. Однако ответ от модели с и без преобразования абсолютно одинаковый, с указанием на исходные документы-источники, тем самым сохраняя точность как вопроса, так и исходных документов при выполнении этого популярного случая использования в предприятии.

Широкое применение в преобразованиях LLM и языках

Одной из особенностей SDK Stained Glass является его высокая устойчивость к развитию моделей и адаптация к передовым моделям, таким как Llama 2. Ниже показан пример SGT, который был создан на модели Llama 2 LLM, которая ранее была настроена для работы с японским текстом. Этот пример демонстрирует, что SGT могут быть созданы и применены для любого языка, а также что даже входные данные для моделей, подвергшихся тонкой настройке, могут быть преобразованы. Широкие возможности применения SGT обусловлены надежной основой SDK Stained Glass, которая не зависит от моделей и данных.

Защита данных тонкой настройки и предложений

Stained Glass Transform не ограничивается только защитой данных на этапе прогнозирования; он также может защищать данные, используемые для тонкой настройки основной модели. Процесс создания преобразования для наборов данных тонкой настройки такой же, как объяснено в разделе архитектуры решения ранее в этом сообщении. Преобразование создается для основной модели с целью тонкой настройки без доступа к данным тонкой настройки. После создания и обучения SGT для основной модели, набор данных для тонкой настройки преобразуется в случайные представления, которые будут использоваться для тонкой настройки основной модели. Этот процесс подробно объясняется в сопровождающей белой книге.

В следующем примере предприятию потребовалось настроить существующую модель для обнаружения аномалий в сетевых журналах. Они использовали Stained Glass для преобразования чувствительных данных для тонкой настройки в случайные эмбеддинги, которые были использованы для тонкой настройки их основной модели. Они обнаружили, что модель обнаружения, которая была настроена на преобразованных представлениях, работает практически с той же точностью, что и в гипотетическом сценарии тонкой настройки основной модели на не защищенных данных для тонкой настройки. В таблице ниже показаны два примера записей с обычным текстом из набора данных для тонкой настройки и реконструкция этих же записей в тексте из набора данных для тонкой настройки.

Под капотом Stained Glass Transform для LLM

При применении к компьютерному зрению, SGT работает с пиксельными функциями ввода, а для LLM-моделей оперирует на уровне эмбеддингов. Чтобы продемонстрировать, как работает Stained Glass Transform, представьте эмбеддинги предложений как матрицу, как показано слева на следующей фигуре. В каждом элементе есть определенное значение. Это значение можно отобразить на исходные данные, раскрывая незащищенные предложения. Stained Glass Transform преобразовывает эту матрицу определенных значений в матрицу, в которой элементы представлены облаком возможностей.

Преобразованное предложение отображается путем выборки шума из вероятностных распределений, определенных SGT, и добавления выбранного шума к определенным эмбеддингам, что делает исходные значения предложений необратимо случайными. Модель по-прежнему понимает случайно преобразованное представление предложения на математическом уровне и может выполнять свою задачу с точностью.

Заключение

В этом сообщении было рассмотрено, как Stained Glass Transform от Protopia AI отделяет собственность и защиту исходных данных от процесса ML-операций, позволяя предприятиям сохранять собственность и обеспечивать конфиденциальность чувствительной информации в LLM предложениях и данных для тонкой настройки. Используя эту передовую технологию защиты данных для использования в LLM, предприятия могут ускорить внедрение основных моделей и LLM, меньше беспокоясь о возможном раскрытии чувствительной информации. Безопасно раскрывая ценность реальных предприятий данных, организации могут обеспечить обещанные эффективность и бизнес-результаты LLMs более эффективно и быстро. Чтобы узнать больше об этой технологии, можно найти дополнительную информацию в сопровождающей белой книге и связаться с Protopia AI, чтобы получить доступ и попробовать ее на корпоративных данных.

О компании Protopia AI

Protopia AI является одним из лидеров в области защиты данных и технологий искусственного интеллекта / машинного обучения с сохранением конфиденциальности, базирующихся в Остине, штат Техас. Она специализируется на возможности работы алгоритмов и программных платформ искусственного интеллекта без необходимости доступа к текстовой информации. За последние 2 года Protopia AI успешно продемонстрировала свой флагманский продукт, Stained Glass Transform, в различных случаях использования машинного обучения и типах данных с ВМС США, ведущими финансовыми услугами и глобальными технологическими поставщиками.

Protopia AI сотрудничает с предприятиями, провайдерами генеративного искусственного интеллекта и LLM-провайдерами (поставщиками долгосрочных арендных машинных облачных сервисов) с целью обеспечения сохранения права собственности и конфиденциальности предприятий при использовании решений искусственного интеллекта / машинного обучения. Protopia AI сотрудничает с AWS для поставки важного компонента защиты данных и права собственности для принятия предприятиями генеративного искусственного интеллекта, и она была одной из 21 стартапов, выбранных для начальной AWS Generative AI Accelerator в 2023 году.