Как компания Reveal’s Logikcull использовала Amazon Comprehend для обнаружения и замены личной идентифицирующей информации в юридических документах в больших масштабах.

Как компания Reveal's Logikcull использовала Amazon Comprehend для автоматического обнаружения и замены персональной идентификационной информации в крупномасштабных правовых документах.

Сегодня лично-идентифицируемая информация (ЛИИ) везде. ЛИИ находится в электронных письмах, сообщениях в Slack, видео, PDF-файлах и многом другом. Это относится к любым данным или информации, которая может быть использована для определения конкретного человека. ЛИИ имеет конфиденциальный характер и включает различные типы персональных данных, таких как имя, контактная информация, идентификационные номера, финансовая информация, медицинская информация, биометрические данные, дата рождения и так далее.

Найти и обезличить ЛИИ необходимо для обеспечения конфиденциальности, обеспечения безопасности данных, соблюдения законов и регламентов, а также поддержания доверия со стороны клиентов и заинтересованных сторон. Это важная составляющая современного управления данными и практик кибербезопасности. Однако поиск ЛИИ среди огромного объема электронных данных может представлять сложности для организации. Эти сложности возникают из-за огромного объема и разнообразия данных, фрагментации данных, шифрования, обмена данными, динамического контента, ложноположительных и ложноотрицательных результатов, контекстного понимания, юридической сложности, ограничений ресурсов, изменяющихся данных, контента, созданного пользователями, и приспособленных угроз. Однако неправильное обнаружение и обезличивание ЛИИ может привести к серьезным последствиям для организаций. Последствия могут включать юридические санкции, судебные иски, ущерб репутации, расходы на расследование нарушения данных, регулятивные расследования, нарушение операционной деятельности, разрушение доверия и санкции.

В юридической системе термин “открытие” относится к юридическому процессу, который регулирует право получения и обязанность предоставления непривилегированной информации, относящейся к искам или защите любой стороны в судебном разбирательстве. Электронное открытие, также известное как eDiscovery, это электронный аспект идентификации, сбора и предоставления электронно хранимой информации (ESI) в ответ на запрос для представления в судебном разбирательстве или расследовании. В юридической сфере часто требуется определить, собрать и представить ESI во время судебного разбирательства или расследования. Если организации имеют дело с eDiscovery в связи с исковыми документами, им могут быть опасения относительно случайного раскрытия ЛИИ. Многие организации, включая правительственные агентства, учебные учреждения и юристы, сталкиваются с проблемой точного обнаружения и обезличивания ЛИИ в масштабах. Особенно если они являются частью правительственной группы, обезличивание ЛИИ в соответствии с Законом о доступе к информации и Законом об информационных технологиях становится важным для защиты личной конфиденциальности, обеспечения соблюдения законов о защите данных, предотвращения кражи личности и поддержания доверия и прозрачности в государственных и цифровых услугах. Это находится на грани прозрачности и конфиденциальности при смягчении юридических и безопасностных рисков.

Организации могут осуществлять поиск ЛИИ с помощью таких методов, как поиск по ключевым словам, сопоставление шаблона, инструменты для предотвращения потери данных, машинное обучение (ML), анализ метаданных, программное обеспечение для классификации данных, оптическое распознавание символов (OCR), идентификация документов, шифрование и другое.

Теперь частью платформы AI-backed eDiscovery компании Reveal, Logikcull – это решение самообслуживания, которое позволяет юристам обрабатывать, рассматривать, маркировать и предоставлять электронные документы в рамках судебного разбирательства или расследования. Это уникальное предложение помогает адвокатам обнаруживать ценную информацию, связанную с рассматриваемым вопросом, при этом снижая затраты, ускоряя принятие решений и смягчая риски.

В этом посте эксперты Reveal демонстрируют, как они использовали Amazon Comprehend в своем процессинговом конвейере документов для обнаружения и обезличивания отдельных элементов ЛИИ. Amazon Comprehend – это полностью управляемый сервис натуральной обработки языка (NLP), который может извлекать информацию о содержимом документа или текста. Вы можете использовать возможности машинного обучения Amazon Comprehend для обнаружения и обезличивания ЛИИ в электронной почте клиентов, тикетах поддержки, отзывах о продуктах, в социальных сетях и других источниках.

Обзор решения

Общая цель команды инженеров – обнаружение и обезличивание ЛИИ в миллионах юридических документов для своих клиентов. Используя решение Logikcull от Reveal, команда инженеров реализовала два процесса: обнаружение ЛИИ на первом шаге и обнаружение и обезличивание ЛИИ на втором шаге. Это двухступенчатое решение стало возможным благодаря использованию API ContainsPiiEntities и DetectPiiEntities.

Обнаружение ЛИИ на первом шаге

Цель первой проверки PII состоит в том, чтобы найти документы, которые могут содержать PII.

  1. Пользователи загружают файлы, на которых им хотелось бы выполнить обнаружение и удаление PII, через общедоступный веб-сайт Logikcull в папку проекта. Эти файлы могут иметь формат офисных документов, .pdf файлов, электронных писем или .zip файла, содержащего все поддерживаемые типы файлов.
  2. Logikcull безопасно хранит эти папки проектов внутри ведра Amazon Simple Storage Service (Amazon S3). Затем файлы проходят параллельную обработку на платформе Logikcull, которая размещена на Amazon Elastic Compute Cloud (Amazon EC2) и обрабатывает файлы, извлекает метаданные и генерирует артефакты в текстовом формате для проверки данных. Обработка файлов в Logikcull поддерживает извлечение текста из широкого спектра форм и файлов, включая аудио и видео файлы.
  3. После доступности файлов в текстовом формате, Logikcull проходит входной текст вместе с языковой моделью, которая является английской, через Amazon Comprehend, отправляя вызов API ContainsPiiEntities. Серверы обработки, размещенные на Amazon EC2, выполняют вызов API Amazon Comprehend ContainsPiiEntities, передавая параметры запроса в виде текста и кода языка. Вызов API ContainsPiiEntities анализирует входной текст на наличие PII и возвращает метки идентифицированных типов PII сущностей, таких как имя, адрес, номер банковского счета или номер телефона. В ответе API также указывается оценка достоверности, которую Amazon Comprehend присвоил точности обнаружения. Оценка достоверности имеет значение от 0 до 1, где 1 соответствует 100-процентной достоверности. Logikcull использует эту оценку достоверности для присвоения тега PII Detected документам. Logikcull присваивает этот тег только документам, у которых оценка достоверности превышает 0,75.
  4. Документы с тегом PII Detected попадают в поисковый индексный кластер Logikcull для возможности пользователям быстро определить документы, содержащие PII-сущности.

Второй этап обнаружения и удаления PII

Процесс первичного обнаружения PII сужает область набора данных, определяя, какие документы содержат информацию PII. Это ускоряет процесс обнаружения PII и снижает общую стоимость. Цель второго этапа обнаружения PII состоит в том, чтобы выявить отдельные случаи PII и удалить их из документов с тегами, установленными на первом этапе.

  1. Пользователи ищут документы на веб-сайте Logikcull, содержащие PII, используя функцию расширенных фильтров поиска Logikcull.
  2. Запрос обрабатывается приложениями серверов Logikcull, размещенными на Amazon EC2, и серверы взаимодействуют с кластером поисковых индексов для поиска документов.
  3. Приложения серверов Logikcull способны определить отдельные случаи PII, отправляя вызов API DetectPiiEntities. Серверы осуществляют вызов API, передавая текст и язык входных документов. API-действие DetectPiiEntities проверяет входной текст на наличие сущностей, содержащих PII. Для каждой сущности ответ предоставляет тип сущности, местоположение начала и конца текста сущности, а также уровень достоверности, которой Amazon Comprehend обладает в отношении обнаружения этой сущности.
  4. Затем пользователи выбирают конкретные сущности, которые они хотят удалить, используя веб-интерфейс Logikcull. Приложения серверов отправляют эти запросы в обработочную линию Logikcull. Ниже приведен скриншот PDF, который был загружен в приложение Logikcull. На скриншоте видно, что разные сущности PII, такие как имя, адрес, номер телефона, адрес электронной почты и т. д., были выделены.

  1. Размывка PII безопасно применяется внутри обработки Logikcull с использованием специальной бизнес-логики. Из скриншота ниже вы можете видеть, что пользователи могут выбрать либо конкретные типы PII-сущностей, либо все типы PII-сущностей, которые они хотят размывать, а затем, одним нажатием кнопки, размыть всю информацию PII.

Результаты

Logikcull, технология Reveal, в настоящее время обрабатывает более 20 миллионов документов каждую неделю и смогла сузить область обнаружения, используя API ContainsPiiEntities и отображать отдельные экземпляры PII-сущностей своим клиентам, используя API DetectPiiEntities.

«С помощью сервиса Amazon Comprehend Logikcull смогла быстро развернуть мощные возможности NLP за долю времени, которую потребовала бы созданная на заказ система».

– Стив Ньюхаус, вице-президент по продукту для Logikcull.

Заключение

Amazon Comprehend позволяет технологии Logikcull от Reveal выполнять обнаружение PII на большой шкале по сравнительно низкой стоимости с использованием Amazon Comprehend. API ContainsPiiEntities используется для начального сканирования миллионов документов. API DetectPiiEntities используется для выполнения детального анализа тысяч документов и выявления отдельных частей PII в их документах.

Ознакомьтесь с всеми возможностями Amazon Comprehend. Попробуйте эти функции и отправьте нам отзывы либо через форум AWS для Amazon Comprehend, либо через свои обычные контакты поддержки AWS.