Использование OCR для сложных инженерных чертежей

OCR for complex engineering drawings

Оптическое распознавание символов (OCR) перевернуло представление о том, как бизнесы автоматизируют обработку документов. Однако качество и точность технологии не всегда подходят для всех приложений. Чем сложнее обрабатываемый документ, тем менее точен становится OCR. Это особенно верно для инженерных чертежей. Хотя стандартные технологии OCR могут не подходить для этой задачи, есть и другие способы достижения ваших целей в области обработки документов с помощью OCR. В следующем разделе я рассмотрю несколько жизнеспособных решений, чтобы дать вам общее представление, не вдаваясь в слишком много технических деталей.

Проблемы распознавания инженерных чертежей

Когда речь идет о технических чертежах, OCR испытывает трудности в понимании значения отдельных текстовых элементов. Технология может прочитать текст, но не понимает его значение. Есть несколько возможностей для инженеров и производителей, которые следует учитывать, если автоматическое распознавание технического документа настроено правильно. Ниже перечислены наиболее значимые из них.

Источник изображения: Mobidev

Для достижения сложного анализа технической документации инженерам необходимо обучать модели искусственного интеллекта. Как и люди, моделям искусственного интеллекта требуется опыт и обучение для понимания этих чертежей.

Одной из проблем распознавания чертежей и инженерных чертежей является то, что программное обеспечение должно понимать, как отделить различные виды чертежа. Это различные части чертежа, которые дают общее представление о его структуре. Путем разделения видов и понимания их взаимосвязи программное обеспечение может рассчитать ограничивающий прямоугольник.

Этот процесс может включать несколько проблем:

  • Виды могут перекрываться
  • Виды могут быть повреждены
  • Метки могут быть равноудалены от двух видов
  • Виды могут быть вложены

Отношение между видами – еще одна возможная проблема. Вы должны учесть, является ли вид плоской частью диаграммы, повернутой частью, блоком или чем-то еще. Кроме того, могут возникнуть другие проблемы, такие как связанные измерения, отсутствующие аннотации, неявно определенные высоты через ссылку на стандарт или другие проблемы.

Важно отметить, что обычный OCR не может надежно распознавать текст на чертежах, окруженный графическими элементами, такими как линии, символы и аннотации. Из-за этого факта нам необходимо более подробно изучить OCR с машинным обучением, которое будет более полезным для этого приложения.

Предварительно обученные и настраиваемые модели OCR

На рынке не хватает программного обеспечения OCR, но не все это программное обеспечение может быть обучено или изменено пользователем. Как мы узнали, обучение может быть необходимостью для анализа ваших инженерных чертежей. Однако существуют инструменты OCR для таких чертежей.

Предварительно обученные инструменты OCR

Вот несколько общих вариантов распознавания OCR для инженерных чертежей:

  • ABBYY FineReader: этот универсальный программный продукт для интерпретации чертежей предлагает технологию OCR с возможностями распознавания текста. Он поддерживает различные форматы изображений, сохранение макета, экспорт данных и интеграции.
  • Adobe Acrobat Pro: помимо возможности редактирования, просмотра и управления PDF, Acrobat позволяет сканировать документы OCR и чертежи, извлекать текст и выполнять поиск. Он поддерживает различные языки и позволяет пользователям настраивать параметры.
  • Bluebeam Revu: еще одно популярное приложение для работы с PDF, Bluebeam Revu предлагает технологии OCR для извлечения текста из инженерных чертежей.
  • AutoCAD: сокращение от Computer Aided Design, AutoCAD поддерживает плагины OCR для интерпретации чертежей и преобразования их в редактируемые элементы CAD.
  • PlanGrid: это программное обеспечение включает в себя интерпретацию OCR чертежей “из коробки”. С его помощью вы можете загружать изображения чертежей, а затем извлекать, организовывать, индексировать и выполнять поиск текста.
  • Textract: эта облачная функция AWS позволяет выполнять анализ OCR документов и извлекать элементы, такие как таблицы, из документов. Она также может распознавать элементы на чертежах и предоставляет API для интеграции с другими приложениями.
  • Butler OCR: предоставляя разработчикам API для извлечения документов, Butler OCR объединяет машинное обучение с проверкой человеком для повышения точности распознавания документов.

Настраиваемые решения OCR

Если вам нужны настраиваемые решения OCR, которые могут быть обучены для достижения лучшего автоматического извлечения данных из инженерных чертежей и приспособлены к вашему конкретному формату данных, вот несколько популярных вариантов:

  • Tesseract: этот гибкий, открытый OCR-движок, поддерживаемый Google, может быть обучен на пользовательских данных для распознавания специфических символов и символов чертежей.
  • OpenCV: Open-Source Computer Vision Library может быть использована с инструментами OCR, такими как Tesseract, для создания настраиваемых интерпретационных решений. Ее функции обработки и анализа изображений могут улучшить точность OCR при правильном использовании на инженерных чертежах.

Помимо этих инструментов, также есть возможность самостоятельно разрабатывать индивидуальные модели машинного обучения. Путем использования обученных моделей на размеченных наборах данных и фреймворков, таких как TensorFlow или PyTorch, эти решения могут быть настроены для распознавания конкретных элементов чертежей и достижения более высокой точности для организации.

Предварительно обученные модели предлагают удобство и простоту использования, но могут быть менее эффективны при интерпретации инженерных чертежей по сравнению с индивидуальными решениями. Эти индивидуальные решения также требуют дополнительных ресурсов и экспертизы для разработки и поддержки.

Создание индивидуальных решений требует дополнительных финансовых ресурсов и труда для разработки. Я рекомендую начать с концепции (PoC), чтобы подтвердить технические возможности и создать минимально жизнеспособный продукт (MVP), чтобы проверить восприятие проекта рынком, прежде чем слишком сильно вкладываться в индивидуальное решение OCR.

Процесс внедрения модуля OCR для чтения инженерных чертежей

Лучшее место для начала создания программного обеспечения OCR для инженерных чертежей – это анализ доступных инструментов с открытым исходным кодом. Если вы исчерпали все варианты с открытым исходным кодом, вам может потребоваться обратиться к вариантам с закрытым исходным кодом с API-интеграцией.

Создание OCR-решения с нуля непрактично, потому что для обучения требуется огромный набор данных. Это сложно и дорого собрать, а также требует больших ресурсов для обучения модели. В большинстве случаев настройка существующих моделей должна удовлетворить ваши потребности.

Дальнейший процесс выглядит примерно так:

  1. Рассмотрите требования: вам нужно понять, с какими видами инженерных чертежей должно работать ваше приложение и какие функции и возможности нужны для достижения этой цели.
  2. Захват изображения и предварительная обработка: подумайте о том, какие устройства вы планируете использовать для захвата изображений. Могут потребоваться дополнительные шаги предварительной обработки для улучшения качества результатов. Это может включать обрезку, изменение размера, удаление шума и другие действия.
  3. Интеграция OCR: рассмотрите OCR-движок, который лучше всего подойдет для вашего приложения. У библиотек OCR есть API, которые позволяют вашему приложению извлекать текст из захваченных изображений. Важно рассмотреть решения OCR с открытым исходным кодом для экономии средств. Сторонние API могут быть непостоянными в отношении ценообразования или потерять поддержку со временем.
  4. Распознавание и обработка текста: затем пришло время реализовать логику обработки и распознавания текста. Некоторые возможные задачи, которые вы можете рассмотреть на этом этапе, – это очистка текста, распознавание языка или любые другие техники, которые могут обеспечить более четкие результаты распознавания текста.
  5. Пользовательский интерфейс и опыт: простой в использовании интерфейс приложения важен, чтобы пользователь мог эффективно использовать его для захвата изображений и запуска OCR. Результаты должны быть представлены пользователю таким образом, чтобы их легко понять.
  6. Тестирование: тщательно протестируйте приложение, чтобы убедиться в его точности и удобстве использования. Обратная связь пользователей является важной частью этого процесса.

Заключение

В свете сложностей создания программного обеспечения OCR для сложных инженерных чертежей организации имеют ряд вариантов для решения этой проблемы. От различных предварительно обученных моделей и настраиваемых инструментов до создания более персонализированных решений, бизнесы могут найти способы эффективного анализа, индексации и поиска чертежей и других сложных документов. Все, что нужно, – это изобретательность, творчество и время для создания решения, соответствующего их потребностям.