Создание хорошо спроектированных IDP-решений с использованием настраиваемого объектива – Часть 6 Устойчивость

Проектирование эффективных IDP-решений с настраиваемым объективом - Часть 6 Обеспечение устойчивости

Проект по интеллектуальной обработке документов (IDP) обычно объединяет оптическое распознавание символов (OCR) и обработку естественного языка (NLP), чтобы автоматически считывать и понимать документы. Клиенты всех отраслей применяют рабочие нагрузки IDP на AWS для достижения бизнес-ценности путем автоматизации таких случаев использования, как формы KYC, налоговые документы, счета-фактуры, страховые претензии, отчеты о доставке, отчеты об инвентаре и многое другое. Рабочие процессы IDP на платформе AWS помогут извлекать предприятию полезные сведения из документов, сокращать ручные усилия и обрабатывать документы быстрее и с большей точностью.

Построение готового к производству IDP-решения в облаке требует компромиссов между стоимостью, доступностью, скоростью обработки и устойчивостью. В этом посте предоставляются рекомендации и лучшие практики по улучшению устойчивости вашего рабочего процесса IDP с использованием Amazon Textract, Amazon Comprehend и IDP Well-Architected Custom Lens.

Каркас AWS Well-Architected помогает вам понять выгоды и риски принимаемых решений при построении рабочих нагрузок на AWS. Дополнительные оптические линзы AWS Well-Architected комплектуют Каркас Well-Architected дополнительным контентом, сфокусированным на отрасле, области применения или конкретном рабочем процессе. Используя Каркас Well-Architected и IDP Well-Architected Custom Lens, вы узнаете о лучших практиках в операционной и архитектурной сферах для проектирования и эксплуатации надежных, безопасных, эффективных, экономически эффективных и устойчивых рабочих нагрузок в облаке.

IDP Well-Architected Custom Lens предоставляет руководство по решению распространенных задач в рабочих процессах IDP, с которыми мы сталкиваемся на практике. Ответив на ряд вопросов в инструменте Well-Architected, вы сможете выявить потенциальные риски и решить их, следуя плану улучшений.

В этом посте акцент делается на принципе устойчивости IDP-оптической линзы. Принцип устойчивости направлен на создание и внедрение решения, минимизирующего экологическое воздействие вашей рабочей нагрузки и уменьшающего потери путем соблюдения следующих принципов и проектирования: понимание воздействия, максимизация использования ресурсов и использование управляемых услуг, и предвидение изменений и подготовка к улучшениям. Эти принципы помогают сосредоточиться на следующих областях: достижение бизнес-результатов с учетом устойчивости, эффективное управление данными и их жизненным циклом, а также готовность к и поощрение непрерывного улучшения.

Принципы проектирования

Принцип устойчивости основан на следующих принципах проектирования и внедрения решения:

  • Понимание воздействия – Измерьте устойчивое воздействие вашей рабочей нагрузки IDP и определите будущее воздействие вашей рабочей нагрузки. Включите все источники воздействия, включая воздействие использования клиентами ваших продуктов. Это также включает воздействие IDP, которое позволяет цифровизировать и осуществлять процессы без бумажной документации. Определите ключевые показатели эффективности (KPI) для вашей рабочей нагрузки IDP, чтобы оценить способы повышения производительности и эффективности при снижении экологического воздействия.
  • Максимизация использования ресурсов и использование управляемых услуг – Минимизируйте простой ресурсов, обработки и хранения, чтобы снизить общее энергопотребление рабочей нагрузки IDP. AWS работает в масштабе, поэтому совместное использование услуг среди широкой базы клиентов помогает максимизировать использование ресурсов, что повышает энергоэффективность и снижает потребность в инфраструктуре для поддержки рабочих нагрузок IDP. С помощью управляемых услуг AWS вы можете минимизировать влияние вашей рабочей нагрузки IDP на вычисления, сети и хранение.
  • Предвидение изменений и подготовка к улучшениям – Предвидьте изменения и поддерживайте внедрение улучшений со стороны ваших партнеров и поставщиков для снижения воздействия ваших рабочих нагрузок IDP. Непрерывно отслеживайте и оценивайте новые, более эффективные аппаратные и программные решения. Проектируйте гибкую систему, чтобы уменьшить препятствия для внедрения изменений и обеспечить быстрое принятие новых эффективных технологий.

Области фокуса

Принципы проектирования и лучшие практики в области устойчивости основаны на отзывах наших клиентов и наших сообществах технических специалистов по IDP. Вы можете использовать их в качестве руководства для поддержки ваших проектирований и согласования вашего решения IDP с требованиями вашего бизнеса и устойчивости.

Следующие области сосредоточения обеспечения устойчивости решений ИПВ в облачной среде: достижение бизнес-результатов с учетом устойчивости, эффективное управление данными и их жизненным циклом, готовность и осуществление непрерывного улучшения.

Достигайте бизнес-результатов с учетом устойчивости

Чтобы определить лучшие регионы для ваших бизнес-потребностей и целей устойчивости, мы рекомендуем следующие шаги:

  • Оцените и составьте список потенциальных регионов – Начните с составления списка потенциальных регионов для вашей рабочей нагрузки на основе ваших бизнес-требований, включая соблюдение, стоимость и задержку. Новые сервисы и функции внедряются постепенно в регионах. Справочный список доступных в AWS сервисов по регионам для проверки наличия необходимых сервисов и функций для запуска вашей рабочей нагрузки ИПВ.
  • Выберите регион, в котором используется 100% возобновляемая энергия – Из вашего списка выберите регионы, близкие к проектам по использованию возобновляемой энергии Amazon и регионы, где в 2022 году потребленная электроэнергия составляла 100% от энергии, полученной из возобновляемых источников. В соответствии с Протоколом по выбросам парниковых газов (GHG), существуют два метода отслеживания выбросов от производства электроэнергии: базирующийся на рынке и базирующийся на местонахождении. Компании могут выбрать один из этих методов в соответствии с их политикой устойчивости для отслеживания и сравнения выбросов в течение нескольких лет. Amazon использует модель, базирующуюся на рынке, для отчетности о своих выбросах. Чтобы сократить ваш углеродный след, выберите регион, в котором в 2022 году потребляемая электроэнергия составляла 100% от возобновляемых источников.

Эффективное управление данными и их жизненным циклом

Данные играют ключевую роль в вашей ИПВ-решении. Начиная с первичной загрузки данных, данные проходят через различные этапы обработки и в конечном итоге возвращаются в виде результатов для конечных пользователей. Важно понимать, как выбор управления данными повлияет на общую ИПВ-архитектуру и ее устойчивость. Эффективное хранение и доступ к данным, а также сокращение неиспользуемых ресурсов хранения, приводит к более эффективной и устойчивой архитектуре. При выборе разных механизмов хранения помните, что вы совершаете компромиссы между эффективностью ресурсов, задержкой доступа и надежностью. Это означает, что вам нужно выбрать соответствующий шаблон управления. В этом разделе мы рассмотрим некоторые bewcтные практики по управлению данными.

Создавайте и загружайте только актуальные данные

Чтобы оптимизировать ваше использование хранилища с учетом устойчивости, оцените, какие данные необходимы для достижения ваших деловых целей, и создавайте и загружайте только актуальные данные в ходе вашего рабочего процесса ИПВ.

Храните только актуальные данные

При проектировании вашего рабочего процесса ИПВ рассмотрите, какие промежуточные данные, полученные на каждом этапе вашего процесса, необходимо хранить. В большинстве рабочих процессов ИПВ нет необходимости хранить данные, используемые или созданные на каждом промежуточном этапе, так как они могут быть легко воспроизведены. Для улучшения устойчивости храните только данные, которые трудно воспроизвести. Если вам нужно хранить промежуточные результаты, рассмотрите возможность применения правила жизненного цикла, которое архивирует и удаляет данные быстрее, чем данные с более строгими требованиями к сохранению.

Сохраняйте данные в различных вычислительных средах, таких как разработка и тестирование. Внедряйте механизмы для обеспечения процесса управления жизненным циклом данных, включая архивирование и удаление, и непрерывно определяйте неиспользуемые данные и удаляйте их.

Чтобы оптимизировать процесс приема и хранения данных, учитывайте оптимальное разрешение данных, которое соответствует вашему случаю использования. Amazon Textract требует не менее 150 точек на дюйм. Если ваш документ не в поддерживаемом формате Amazon Textract (PDF, TIFF, JPEG и PNG) и вам нужно его преобразовать, экспериментируйте, чтобы найти оптимальное разрешение для лучших результатов, а не выбирайте максимальное разрешение.

Используйте правильную технологию для хранения данных

Для рабочих процессов ИПВ большая часть данных скорее всего будет представлена в виде документов. Amazon Simple Storage Service (Amazon S3) – это объектное хранилище, созданное для хранения и получения любого объема данных из любого места, что делает его отличным вариантом для рабочих процессов ИПВ. Использование различных уровней хранения Amazon S3 является ключевым компонентом оптимизации хранения с учетом устойчивости.

При рассмотрении различных механизмов хранения помните, что вы делаете компромисс между эффективностью использования ресурсов, задержкой доступа и надежностью. Это означает, что вам нужно выбрать соответствующий образец управления. Храня менее изменчивые данные на технологиях, разработанных для эффективного долгосрочного хранения, вы можете оптимизировать использование ваших хранилищ. Для архивации данных или хранения медленно меняющихся данных доступны Amazon S3 Glacier и Amazon S3 Glacier Deep Archive. В зависимости от классификации данных и рабочего процесса вы можете выбрать Amazon S3 One Zone-IA, который снижает энергопотребление и емкость сервера, храня данные в пределах одной доступной зоны.

Активное управление жизненным циклом данных в соответствии с вашими целями в области устойчивого развития

Управление жизненным циклом данных означает оптимизацию использования вашего хранилища. Для рабочих процессов IDP сначала определите ваши требования к сохранению данных. Основываясь на требованиях к сохранению, создайте конфигурации жизненного цикла Amazon S3, которые автоматически переводят объекты в другой класс хранения на основе ваших заранее определенных правил. Для данных без требований к сохранению и неизвестных или изменяющихся образцов доступа используйте Amazon S3 Intelligent-Tiering для мониторинга образцов доступа и автоматического перемещения объектов между уровнями.

Непрерывная оптимизация использования хранилища, используя правильные инструменты

С течением времени использование данных и образец доступа в вашем рабочем процессе IDP может измениться. Инструменты, такие как Amazon S3 Storage Lens, предоставляют информацию о использовании хранилища и тенденциях активности, а также рекомендации по улучшению. Вы можете использовать эту информацию для дальнейшего снижения экологического воздействия хранения данных.

Включение близости данных и вычислений

При использовании вашего рабочего процесса IDP большего числа клиентов увеличится объем данных, передаваемых по сети. Аналогично, чем больше размер данных и чем больше расстояние, которое должен пройти пакет, тем больше ресурсов требуется для его передачи.

Уменьшение объема передаваемых данных по сети и оптимизация пути, который проходит пакет, приведут к более эффективному передаче данных. Размещение хранилища данных рядом с обработкой данных помогает оптимизировать устойчивость на уровне сети. Убедитесь, что регион, используемый для хранения данных, совпадает с регионом, в котором развернут ваш рабочий процесс IDP. Этот подход помогает минимизировать время и стоимость передачи данных в вычислительную среду.

Будьте готовы и продвигайте непрерывное улучшение

Улучшение устойчивости вашего рабочего процесса IDP является непрерывным процессом, который требует гибких архитектур и автоматизации для поддержки более мелких, частых улучшений. Когда ваша архитектура слабо связана и использует безсерверные и управляемые сервисы, вы можете включать новые функции без затруднений и заменять компоненты для улучшения устойчивости и достижения эффективности работы. В этом разделе мы предлагаем некоторые bewt practices (наиболее эффективные методы).

Улучшайте безопасно и непрерывно с помощью автоматизации

Использование автоматизации для внедрения всех изменений снижает возможность ошибок человека и позволяет вам тестировать перед внесением изменений в производство, чтобы убедиться в полноте ваших планов. Автоматизируйте процесс доставки программного обеспечения с помощью непрерывной интеграции и непрерывной доставки (CI/CD) для тестирования и развертывания потенциальных улучшений, чтобы снизить усилия и ограничить ошибки, вызванные ручными процессами. Определяйте изменения с помощью инфраструктуры как код (IaC): все конфигурации должны быть определены декларативно и храниться в системе управления версиями, такой как AWS CodeCommit, так же, как код приложения. Предоставление, оркестровка и развертывание инфраструктуры также должны поддерживать IaC.

Используйте безсерверные сервисы для оркестрации рабочего процесса

Рабочие процессы IDP обычно характеризуются высокими пиками и периодами неактивности (например, вне рабочего времени) и в основном определяются событиями (например, при загрузке нового документа). Это делает их подходящими для безсерверных решений.
Безсерверные сервисы AWS могут помочь вам быстро и устойчиво построить масштабируемое решение для рабочих процессов IDP. Службы, такие как AWS Lambda, AWS Step Functions и Amazon EventBridge, помогают оркестрировать ваш рабочий процесс, основанный на событиях, и минимизировать неиспользуемые ресурсы для улучшения устойчивости.

Используйте событийно-ориентированную архитектуру

Использование безсерверных сервисов AWS для реализации событийного подхода позволит вам создавать масштабируемые и надежные рабочие процессы IDP и минимизировать простаивающие ресурсы.

Например, вы можете настроить Amazon S3 на запуск нового рабочего процесса при загрузке нового документа. Amazon S3 может запускать EventBridge или вызывать функцию Lambda для запуска задания обнаружения Amazon Textract. Вы можете использовать темы Amazon Simple Notification Service (Amazon SNS) для многоадресной передачи событий или отправки сообщений о завершении задания. Вы можете использовать Amazon Simple Queue Service (Amazon SQS) для надежной и устойчивой связи между микросервисами, например, вызов функции Lambda для чтения вывода Amazon Textract, а затем вызова пользовательского классификатора Amazon Comprehend для классификации документа.

Используйте управляемые сервисы, такие как Amazon Textract и Amazon Comprehend

Вы можете выполнять IDP с использованием самостоятельной модели или управляемых сервисов, таких как Amazon Textract и Amazon Comprehend. Использование управляемых сервисов вместо пользовательской модели позволяет сократить затраты на разработку, обучение и переобучение пользовательской модели. Управляемые сервисы используют общие ресурсы, что позволяет снизить энергозатраты на создание и поддержку решения IDP и повысить экологичность.

Просмотрите сообщения в блоге AWS, чтобы быть в курсе обновлений функций

Существует несколько блогов и ресурсов, которые помогут вам быть в курсе объявлений AWS и узнать о новых функциях, которые могут улучшить вашу рабочую нагрузку IDP. Сообщество AWS re:Post – это служба вопросов и ответов, разработанная для помощи клиентам AWS в преодолении технических затруднений, ускорении инноваций и улучшении операций. AWS re:Post имеет более 40 тем, включая сообщество, посвященное AWS Well-Architected. У AWS также есть блоги, посвященные конкретным сервисам, которые помогут вам быть в курсе событий Amazon Textract и Amazon Comprehend.

Заключение

В этой статье мы поделились принципами проектирования, основными областями и bewww.rupython.com/as-солjer-returns-digital-transformation-and-changing-organizational-subcultures.htmlspf4. действиями для оптимизации экологичности вашего рабочего процесса IDP. Для получения дополнительной информации о экологичности в облаке обратитесь к следующей серии статей на тему Оптимизация вашей инфраструктуры AWS для повышения экологичности. Часть I: Вычисления, Часть II: Хранение данных и Часть III: Сетевое взаимодействие.

Чтобы получить дополнительные сведения о пользовательском объективе Well-Architected IDP, изучите следующие статьи в этой серии:

Надежность](https://aws.amazon.com/blogs/machine-learning/build-well-architected-idp-solutions-with-a-custom-lens-part-3-reliability/) – Создание хорошо спроектированных решений IDP с пользовательским объективом – Часть 4: Производительность эффективностиСоздание хорошо спроектированных решений IDP с пользовательским объективом – Часть 5: Оптимизация стоимости – Создание хорошо спроектированных решений IDP с пользовательским объективом – Часть 6: Экологичность

AWS придерживается принципов Well-Architected Lens по IDP, как живого инструмента. По мере развития решений IDP и связанных с ними сервисов искусственного интеллекта AWS, а также создания новых сервисов AWS, мы будем соответствующим образом обновлять Well-Architected Lens по IDP.

Чтобы начать работу с IDP на AWS, обратитесь к руководству Guidance for Intelligent Document Processing on AWS, чтобы разработать и построить ваше приложение IDP. Если вам интересны подробности об end-to-end решениях, включающих процессы ввода данных, классификации, извлечения, обогащения, проверки и валидации и потребления, обратитесь к Intelligent document processing with AWS AI services: Part 1 и Part 2. Кроме того, рассмотрите Intelligent document processing with Amazon Textract, Amazon Bedrock, and LangChain, где описано, как расширить новую или существующую архитектуру IDP с использованием больших языковых моделей (LLMs). Вы узнаете, как интегрировать Amazon Textract с LangChain в качестве загрузчика документов, использовать Amazon Bedrock для извлечения данных из документов и использовать возможности генеративного искусственного интеллекта на разных этапах IDP.

Если вам требуется дополнительное профессиональное руководство, свяжитесь с вашей командой AWS, чтобы обратиться к специалисту-архитектору по IDP.