Чтение свойств pdf / метаданных в python

Как я могу прочитать свойства / метаданные, такие как Title, Author, Subject и Keywords, хранящиеся в pdf-файле, используя python?

4 Solutions collect form web for “Чтение свойств pdf / метаданных в python”

Попробуйте pdfminer :

from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument fp = open('diveintopython.pdf', 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) print doc.info # The "Info" metadata 

Вот результат:

 >>> [{'CreationDate': 'D:20040520151901-0500', 'Creator': 'DocBook XSL Stylesheets V1.52.2', 'Keywords': 'Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free', 'Producer': 'htmldoc 1.8.23 Copyright 1997-2002 Easy Software Products, All Rights Reserved.', 'Title': 'Dive Into Python'}] 

Для получения дополнительной информации просмотрите этот учебник: легкий анализатор XMP для извлечения метаданных PDF в Python .

Для Python 3 см. PyPDF2 с примером кода из @Khaleel, обновленным до:

 from PyPDF2 import PdfFileReader pdf_toread = PdfFileReader(open("test.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print(str(pdf_info)) 

Установите с помощью pip install PyPDF2 .

Я реализовал это с помощью pyPdf . См. Пример кода ниже.

 from pyPdf import PdfFileReader pdf_toread = PdfFileReader(open("doc2.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print str(pdf_info) 

Вывод:

 {'/Title': u'Microsoft Word - Agnico-Eagle - Complaint (00040197-2)', '/CreationDate': u"D:20111108111228-05'00'", '/Producer': u'Acrobat Distiller 10.0.0 (Windows)', '/ModDate': u"D:20111108112409-05'00'", '/Creator': u'PScript5.dll Version 5.2.2', '/Author': u'LdelPino'} 

Для Python 3 и нового pdfminer (pip install pdfminer3k):

 import os from pdfminer.pdfparser import PDFParser from pdfminer.pdfparser import PDFDocument fp = open("foo.pdf", 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_document(doc) doc.set_parser(parser) if len(doc.info) > 0: info = doc.info[0] print(info) 
  • .doc в pdf с использованием python
  • Как выполнить тестирование функции Python, которая рисует графику PDF?
  • Python Wand конвертирует из PDF в JPG фон неправильно
  • Как продолжить содержание на следующей странице в Reportlabs - Python
  • извлечение текста из pdf с помощью pdfminer дает несколько копий
  • как извлечь форматированный текстовый контент из PDF
  • Как преобразовать веб-страницу в PDF с помощью Python
  • Извлечение текста из файла PDF с использованием Python
  • Python - лучший язык программирования в мире.