Создайте генеративный интеллектуальный шлюз, позволяющий безопасное и соблюдающее нормативы использование базовых моделей.

Создайте генеративный интеллектуальный шлюз для безопасного и нормативного использования базовых моделей.

В быстро развивающемся мире искусственного интеллекта и машинного обучения (ML) фундаментальные модели (FM) показали огромный потенциал для стимулирования инноваций и открытия новых применений. Однако с увеличением использования FM организациями, вопросы, связанные с конфиденциальностью данных, безопасностью, дополнительными затратами и соответствием, стали приоритетными. Регулируемые отрасли, такие как финансовые услуги, здравоохранение и наука о жизни, а также государственные институты, сталкиваются с уникальными проблемами в обеспечении безопасного и ответственного использования этих моделей. Для достижения баланса между гибкостью, инновациями и соблюдением стандартов становится неотъемлемой частью надежная платформа. В этом посте мы предлагаем использовать Generative AI Gateway в качестве платформы для предоставления безопасного доступа к FM для быстрой инновации.

В этом посте мы определим, что такое Generative AI Gateway, его преимущества и как построить его на AWS. Generative AI Gateway может помочь крупным предприятиям контролировать, стандартизировать и управлять использованием FM из таких сервисов, как Amazon Bedrock, Amazon SageMaker JumpStart, сторонних поставщиков моделей (таких как Anthropic и их API) и других поставщиков моделей вне экосистемы AWS.

Что такое Generative AI Gateway?

В случае традиционных API (например, REST или gRPC) API Gateway зарекомендовала себя как шаблон проектирования, позволяющий предприятиям стандартизировать и управлять тем, как предоставлять и потреблять API из внешних источников. Кроме того, API Registries обеспечивают централизованное управление, контроль и обнаружение API.

Аналогично, Generative AI Gateway является шаблоном проектирования, который стремится расширить шаблоны API Gateway и Registry, учитывая особенности обслуживания и использования фундаментальных моделей в крупном предприятии. Например, обработка галлюцинаций, управление корпоративными ИС и EULA (лицензионными соглашениями конечного пользователя) и модерация поколений – это новые обязанности, выходящие за рамки традиционных API-шлюзов.

Кроме требований, специфичных для генеративных ИИ, технологическая и регуляторная среда для фундаментальных моделей меняются быстро. Это представляет уникальные проблемы для организаций в балансировке между скоростью инноваций и соответствием. Например:

  • Состояние искусства (SOTA) моделей, архитектур и лучших практик постоянно меняется. Это означает, что компаниям необходимо иметь свободную связь между клиентами приложений (потребителями моделей) и конечными точками вывода модели, что обеспечивает легкую замену между большими языковыми моделями (LLM), моделями представления и многомодальными конечными точками, если это необходимо. Уровень абстракции над конечными точками вывода модели обеспечивает такую свободную связь.
  • Регуляторная неопределенность, особенно в отношении ИС и конфиденциальности данных, требует наблюдения, мониторинга и отслеживания поколений. Например, если приложения на основе Retrieval Augmented Generation (RAG) случайно включают лично идентифицируемую информацию (ЛИИ) в контекст, такие проблемы должны быть обнаружены в реальном времени. Это становится сложным, если крупные предприятия с несколькими командами науки о данных используют специализированные распределенные платформы для развертывания фундаментальных моделей.

Generative AI Gateway стремится решить эти новые требования, предоставляя те же преимущества, что и традиционные API-шлюзы и реестры, такие как централизованное управление и наблюдаемость, а также повторное использование общих компонентов.

Обзор решения

Более конкретно, Generative AI Gateway предоставляет следующие ключевые компоненты:

  • Уровень абстракции модели для утвержденных FM
  • API Gateway для FM (AI Gateway)
  • Площадка для FM для внутреннего обнаружения моделей

На следующей схеме представлена архитектура решения.

Для повышения надежности предлагаемое решение может быть развернуто в окружении с несколькими АЗ. Пунктирные линии на предыдущей схеме представляют границы сети, хотя весь проект можно развернуть в одной VPC.

Уровень абстракции модели

Уровень абстракции модели служит основой для безопасного и контролируемого доступа к пулу FM организации. Уровень является единственным источником правды для доступных моделей компании, команды и сотрудника, а также способа доступа к каждой модели путем сохранения информации о конечных точках для каждой модели.

Этот уровень является основой для безопасного, соответствующего требованиям и гибкого потребления FM через Generative AI Gateway, способствуя ответственной практике использования ИИ в организации.

Сам слой состоит из четырех основных компонентов:

  • Реестр конечных точек FM – После того, как модели FM оценены, одобрены и развернуты для использования, их конечные точки добавляются в реестр конечных точек FM – централизованное хранилище всех развернутых или внешне доступных конечных точек API. Реестр содержит метаданные о конечных точках сервиса генеративного искусственного интеллекта, которые организация использует, будь то внутренне развернутый FM или внешний API генеративного искусственного интеллекта от поставщика. Метаданные включают информацию о конечных точках сервиса для каждой основной модели и их конфигурацию, а также политики доступа (на основе роли, команды и т. Д.).
  • Хранилище идентификационных политик и движок – Для использования моделей FM соблюдая нормы и правила, слой абстракции модели должен отслеживать качественные и количественные правила для генерации моделей. Например, некоторые поколения могут подпадать под определенные регулирования, такие как Гражданский закон Калифорнии о конфиденциальности потребителей (CCPA), который требует индивидуального поведения генерации в соответствии с географическим положением. Поэтому политики должны быть ориентированы на страну и географическое положение, чтобы обеспечить соответствие требованиям в изменяющейся регулирующей среде.
  • Слой идентификации – После того, как модели доступны для использования, слой идентификации играет ключевую роль в управлении доступом, обеспечивая, что только авторизованные пользователи или роли в организации могут взаимодействовать с определенными FM через шлюз ИИ. Механизмы управления доступом на основе ролей (Role-based access control, RBAC) помогают определить детализированные права доступа, обеспечивая, что пользователи могут получать доступ к моделям на основе своих ролей и обязанностей.
  • Интеграция с реестрами моделей поставщиков – FM могут быть доступны различными способами, будь то развернутыми в учетных записях организации под управлением VPC или доступными в виде API через разных поставщиков. После прохождения ранее упомянутых начальных проверок, реестр конечных точек содержит необходимую информацию об этих моделях от поставщиков и их версиях, доступных через API. Это абстрагирует сложности от конечного пользователя.

Для заполнения реестра конечных точек модели искусственного интеллекта, команда шлюза генеративного искусственного интеллекта сотрудничает с командой межфункциональных экспертов и заинтересованных лиц из бизнес-линий для тщательного выбора и включения FM в платформу. Во время этой фазы включения тщательно рассматриваются такие факторы, как производительность модели, стоимость, этическое соответствие, соответствие нормативным требованиям отрасли и репутация поставщика. Проведя тщательные оценки, организации обеспечивают соответствие выбранных FM их конкретным бизнес-потребностям и требованиям безопасности и конфиденциальности.

На следующей диаграмме изображена архитектура этого слоя.

MAL

Службы AWS могут помочь в создании слоя абстракции модели (MAL) следующим образом:

  1. Менеджер генеративного искусственного интеллекта создает таблицу реестра с использованием Amazon DynamoDB. В эту таблицу вносится информация о FM, развернутых либо внутренне в учетной записи организации, либо доступных через API от поставщиков. В этой таблице хранятся конечная точка, метаданные и конфигурационные параметры для модели. Она также может хранить информацию, если требуется вызвать подлежащую FM с использованием специфичных для поставщика клиентских API-клиентов AWS Lambda.
  2. Затем менеджер генеративного искусственного интеллекта определяет доступ для пользователя, устанавливает ограничения, устанавливает политику для типа поколений, которые пользователь может выполнять (изображения, текст, мультимодальность и т.д.), и добавляет другие организационно-специфические политики, такие как ответственное использование и фильтры контента, которые будут добавлены в отдельную таблицу политик в DynamoDB.
  3. Когда пользователь делает запрос с использованием шлюза ИИ, он направляется в Amazon Cognito, чтобы определить доступ для клиента. Авторизация Lambda помогает определить доступ из слоя идентификации, который будет управляться политикой таблицы DynamoDB. Если клиент имеет доступ, получаются соответствующие ключи доступа, такие как AWS Identity and Access Management (IAM) или API-ключ для конечной точки FM, из AWS Secrets Manager. Кроме того, на этом этапе исследуется реестр, чтобы найти соответствующую конечную точку и конфигурацию.
  4. После получения всей необходимой информации, связанной с запросом, такой как конечная точка, конфигурация, ключи доступа и пользовательская функция, она возвращается в шлюз ИИ, чтобы использоваться с помощью функции диспетчера Lambda, которая вызывает конкретную конечную точку модели.

AI Gateway

AI Gateway является важным компонентом, который обеспечивает безопасное и эффективное использование ЧМ в организации. Он работает поверх уровня абстракции модели, предоставляя API-интерфейс для внутренних пользователей, включая разработчиков, специалистов по обработке данных и бизнес-аналитиков.

Через этот удобный пользовательский интерфейс (в виде программного интерфейса и графического интерфейса), внутренние пользователи могут без проблем получать доступ к моделям организации, взаимодействовать с ними и использовать их, обеспечивая доступность соответствующих моделей на основе их идентификационных данных и обязанностей. AI Gateway может включать в себя следующие компоненты:

  • Унифицированный API-интерфейс для всех ЧМ – AI Gateway представляет унифицированный API-интерфейс и SDK, который абстрагирует сложности технической реализации, позволяя внутренним пользователям взаимодействовать с пулом ЧМ организации легко и несложно. Пользователи могут использовать API для вызова различных моделей и отправки запросов для сгенерированных моделей.
  • Управление квотой, ограничениями и использованием API – Это включает следующие возможности:
    • Квота использования – Для эффективного выделения ресурсов и контроля затрат, AI Gateway предоставляет пользователям информацию о квоте использования каждой модели. Эта прозрачность позволяет пользователям эффективно управлять использованием искусственного интеллекта, обеспечивая оптимальное использование ресурсов и предотвращение излишних затрат.
    • Запрос на выделенное размещение – Признавая важность выделенного размещения в случае срочных задач, AI Gateway позволяет пользователям запрашивать выделенное размещение для конкретных моделей. Пользователи с приоритетными задачами или приложениями, требующими минимальной задержки, могут использовать эту функцию для обеспечения постоянного и выделенного окружения для своих потребностей в выводе моделей.
  • Контроль доступа и управление моделями – Используя уровень идентификации из уровня абстракции моделей, AI Gateway осуществляет строгий контроль доступа. Идентификация и роли каждого пользователя определяют модели, к которым они имеют доступ. Такой детализированный контроль доступа гарантирует, что пользователи видят только модели, относящиеся к их областям, обеспечивая безопасность данных и конфиденциальность, а также ответственное использование искусственного интеллекта.
  • Политика контента, конфиденциальности и ответственного использования искусственного интеллекта – API Gateway применяет предварительную обработку и постобработку всех входных данных моделей, а также фильтрацию и управление токсичностью, насилием, вредоносностью, ПИИ данных и т. д., что указывается на уровне абстракции моделей для фильтрации. Централизация этой функции в AI Gateway обеспечивает ее применение и простую проверку.

Интегрируя AI Gateway с уровнем абстракции моделей и используя функциональность, такую как доступ на основе идентификации, список моделей и отображение метаданных, мониторинг использования квоты и запросы на выделенное размещение, организации могут создать мощную платформу для использования искусственного интеллекта.

Кроме того, AI Gateway обеспечивает стандартные преимущества API Gateway, такие как:

  • Механизм контроля затрат – Для оптимизации выделения ресурсов и эффективного управления затратами можно использовать надежный механизм контроля затрат. Этот механизм отслеживает использование ресурсов, затраты на вывод моделей и пересылку данных. Он позволяет организациям получать информацию о расходах на искусственный интеллект, выявлять возможности экономии затрат и принимать обоснованные решения по выделению ресурсов.
  • Кэш – Работа с ЧМ может быть затратной, особенно во время тестирования и разработки приложения. Кэш-слои могут помочь снизить эти затраты и даже улучшить скорость выполнения, поддерживая кэш для частых запросов. Кэш также снижает нагрузку на конечную точку работы с ЧМ, что оставляет место для обработки других запросов.
  • Отслеживаемость – Это имеет важное значение для запоминания действий, выполненных в AI Gateway и Discovery Playground. Подробные журналы записывают взаимодействия пользователей, запросы моделей и ответы системы. Эти журналы предоставляют ценную информацию для устранения проблем, отслеживания поведения пользователей и обеспечения прозрачности и ответственности.
  • Квоты, ограничения скорости и регулирование производительности – Аспект управления этого уровня может включать квоты, ограничения скорости и регулирование производительности для управления и контроля использования ресурсов искусственного интеллекта. Квоты определяют максимальное количество запросов, которое может сделать пользователь или команда в определенный промежуток времени, обеспечивая справедливое распределение ресурсов. Ограничения скорости предотвращают чрезмерное использование ресурсов, ограничивая максимальную скорость запросов. Регулирование производительности предотвращает риск перегрузки системы, контролируя частоту входящих запросов и предотвращая сбои в обслуживании.
  • Журналы аудита и мониторинг использования – Команда отвечает за подробное сопровождение всей экосистемы. Эти журналы позволяют осуществлять всесторонний мониторинг использования, позволяя центральной команде отслеживать действия пользователей, выявлять потенциальные риски и поддерживать прозрачность при использовании искусственного интеллекта.

Следующая диаграмма иллюстрирует данную архитектуру.

AI - Gateway

Услуги AWS могут помочь в создании шлюза искусственного интеллекта следующим образом:

  1. Пользователь отправляет запрос с помощью Amazon API Gateway, который маршрутизируется на уровень абстракции модели после аутентификации и авторизации запроса.
  2. Шлюз искусственного интеллекта обеспечивает ограничения использования для каждого запроса пользователя с использованием политик ограничений использования, возвращаемых слоем абстрагирования модели. Чтобы облегчить применение, мы используем встроенную возможность API Gateway для фиксации показаний счетчика. Кроме того, мы выполняем стандартные проверки API Gateway на запрос, используя схему JSON.
  3. После проверки ограничений использования как настройка конечной точки, так и учетные данные, полученные от слоя абстрагирования модели, формируют фактический показатель вывода с использованием собственных интерфейсов, предоставленных каждым из утвержденных производителей моделей. Слой диспетчеризации нормализует различия между различными СДК и программными интерфейсами поставщиков моделей для предоставления единообразного интерфейса клиенту. Проблемы, такие как изменения DNS, балансировка нагрузки и кэширование, также могут быть обработаны более сложным службой отправки.
  4. После получения ответа с модельных конечных точек производятся функции постобработки Lambda, использующие политики слоя абстрагирования модели в отношении содержимого (токсичность, наготу и т. Д.), а также соответствия (CCPA, GDPR и т. д.), для фильтрации или маскирования поколений в целом или частично.
  5. На протяжении жизненного цикла запроса все поколения и показатели вывода регистрируются через Amazon CloudWatch Logs, которые могут быть организованы через логические группы в зависимости от тегов, а также через политики, полученные из слоя абстрагирования модели. Например, журналы могут быть разделены по поставщику моделей и гео. Это позволяет дополнительно улучшить модель и устранять неисправности.
  6. Наконец, доступна историческая аудитория через AWS CloudTrail.

Площадка для исследования

Последний компонент – представить площадку для исследования, которая представляет собой дружественный пользовательский интерфейс, построенный на основе слоя абстрагирования модели и шлюза искусственного интеллекта, предлагающий динамическую среду для исследования, тестирования и раскрытия полного потенциала доступных методов. Помимо предоставления доступа к возможностям искусственного интеллекта площадка позволяет пользователям взаимодействовать с моделями с использованием насыщенного пользовательского интерфейса, давать ценные отзывы и делиться своими открытиями с другими пользователями внутри организации. Платформа предлагает следующие ключевые особенности:

  • Интерфейс площадки – Вы можете легко вводить и получать результаты модели в режиме реального времени. Пользовательский интерфейс упрощает процесс взаимодействия, делая исследование генеративного искусственного интеллекта доступным для пользователей с разным уровнем технической подготовки.
  • Карты моделей – Вы можете получить доступ к полному списку доступных моделей вместе с соответствующими метаданными. Вы можете изучить подробную информацию о каждой модели, такую как ее возможности, показатели производительности и поддерживаемые типы использования. Эта функция облегчает принятие информированных решений и позволяет выбрать наиболее подходящую модель для конкретных потребностей.
  • Механизм обратной связи – Отличительной чертой площадки является механизм обратной связи, позволяющий предоставлять инсайты в отношении вывода модели. Вы можете сообщать о проблемах, таких как галлюцинация (сфабрикованная информация), неподходящий язык или любое непреднамеренное поведение, обнаруженное во время взаимодействия с моделями.
  • Рекомендации для случаев использования – Площадка Discovery может быть разработана для облегчения изучения и понимания возможностей методов в разных ситуациях использования. Вы можете экспериментировать с различными подсказками и узнавать, в каких сценариях модели проявляют себя наилучшим образом.

Предоставляя насыщенный пользовательский интерфейс, карты моделей, механизм обратной связи, рекомендации для использования и дополнительный магазин примеров, площадка Discovery становится мощной платформой для исследования генеративного искусственного интеллекта и обмена знаниями в организации.

Учет процесса

Если предыдущие модули Шлюза генеративного искусственного интеллекта предлагают платформу, этот уровень более практичен и обеспечивает ответственное и соответствующее использование методов в организации. Он включает дополнительные меры, выходящие за рамки технических аспектов и сосредотачивающиеся на юридических, практических и регулятивных аспектах. Этот уровень представляет важные обязанности для центральной команды в области обеспечения безопасности данных, лицензий, организационных регуляций и аудита, стимулируя культуру доверия и прозрачности:

  • Безопасность данных и конфиденциальность – Поскольку методы способны обрабатывать огромные объемы данных, безопасность данных и конфиденциальность становятся важнейшими вопросами. Центральная команда отвечает за внедрение надежных мер безопасности данных, включая шифрование, контроль доступа и анонимизацию данных. Соблюдение правил защиты данных, таких как GDPR, HIPAA или других отраслевых стандартов, тщательно гарантируется для защиты конфиденциальной информации и частной жизни пользователей.
  • Мониторинг данных – Следует установить всестороннюю систему мониторинга данных для отслеживания входящей и исходящей информации через Шлюз искусственного интеллекта и площадку Discovery. Это включает мониторинг предложений, предоставленных пользователями, и соответствующих выводов модели. Механизм мониторинга данных позволяет организации наблюдать за образцами данных, обнаруживать аномалии и обеспечивать безопасность чувствительной информации.
  • Лицензии и соглашения о моделях – Центральная команда должна руководить управлением лицензиями и соглашениями, связанными с использованием моделей. Модели, предоставляемые поставщиками, могут иметь определенные соглашения об использовании, ограничения использования или условия лицензирования. Команда обеспечивает соблюдение этих соглашений и поддерживает полный репозиторий всех лицензий, обеспечивая ясное понимание прав и ограничений, относящихся к каждой модели.
  • <li

    Заключение

    Generative AI Gateway позволяет организациям использовать фундаментальные модели ответственно и безопасно. Через интеграцию слоя абстракции моделей, AI Gateway и Discovery Playground, обеспеченных мониторингом, наблюдаемостью, управлением, безопасностью, соответствием нормативным требованиям и аудиту, организации могут найти баланс между инновациями и соответствием. AI Gateway предоставляет вам возможность удобного доступа к составленным моделям, а Discovery Playground способствует исследованию и обратной связи. Мониторинг и управление предоставляют инсайты для оптимального распределения ресурсов и принятия предупредительных решений. С акцентом на безопасности, соответствии нормативам и этической практике искусственного интеллекта, Generative AI Gateway открывает двери в будущее, где AI-приложения развиваются ответственно, открывая новые возможности для организаций.

    </li