Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая лучшая библиотека?

Я ищу библиотеку PDF, которая позволит мне извлечь текст из PDF-документа. Я посмотрел на PyPDF, и это может извлечь текст из документа PDF очень красиво. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальной частью текста документа. Это может быть проблематично, потому что он создает разделы текста, которые не являются полезными и выглядят искаженными (например, много номеров, вырванных вместе).

Я ищу что-то более продвинутое. Я хотел бы извлечь текст из PDF-документа, исключая любые таблицы и специальное форматирование. Есть ли там библиотека, которая делает это? Или я вынужден сделать некоторую пост-обработку выходного текста, чтобы избавиться от этих разделов?

2 Solutions collect form web for “Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая лучшая библиотека?”

Вы также можете взглянуть на PDFMiner , другой синтаксический анализатор PDF в Python.

Особенность PDFMiner, которая может вас заинтересовать, заключается в том, что вы можете контролировать, как она группирует текстовые части при извлечении. Вы делаете это, указывая пространство между строками, словами, символами и т. Д. Таким образом, возможно, tweeking это вы можете достичь того, что вы хотите (что зависит от изменчивости ваших документов). PDFMiner также может предоставить вам местоположение текста на странице, он может извлекать данные по идентификатору объекта и другим материалам. Итак, копайте в PDFMiner и будьте творческими!

Но ваша проблема действительно нелегкая, потому что в формате PDF текст не является непрерывным, а сделан из множества небольших групп персонажей, помещенных абсолютно на страницу. Фокус PDF заключается в том, чтобы сохранить макет неповрежденным. Это не ориентированный на контент, а ориентированный на презентацию.

Это сложная проблема, потому что визуально похожие PDF-файлы могут иметь совершенно различную структуру в зависимости от того, как они были созданы. В худшем случае библиотека должна будет действовать в основном как OCR. С другой стороны, PDF может содержать достаточную структуру и метаданные для легкого удаления таблиц и цифр, которые библиотека может быть адаптирована для использования.

Я уверен, что нет никаких инструментов с открытым исходным кодом, которые решают вашу проблему для самых разных PDF-файлов, но я помню, что слышал о коммерческом программном обеспечении, требующем сделать именно то, что вы просите. Я уверен, что вы столкнетесь с ними во время поиска в Интернете.

  • Существует ли библиотека для программного удаления паролей из файлов PDF?
  • Лучший способ экспорта Pandas DF в PDF-файл с использованием Python
  • Как продолжить содержание на следующей странице в Reportlabs - Python
  • Просмотр PDF-изображения в iPython Notebook
  • Как создать простой pdf-файл в python?
  • reportlab низкая производительность
  • Чтение свойств pdf / метаданных в python
  • PythonMagick не может найти мои файлы PDF
  • Python - лучший язык программирования в мире.