Чтение свойств pdf / метаданных в python

Как я могу прочитать свойства / метаданные, такие как Title, Author, Subject и Keywords, хранящиеся в pdf-файле, используя python?

4 Solutions collect form web for “Чтение свойств pdf / метаданных в python”

Попробуйте pdfminer :

from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument fp = open('diveintopython.pdf', 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) print doc.info # The "Info" metadata 

Вот результат:

 >>> [{'CreationDate': 'D:20040520151901-0500', 'Creator': 'DocBook XSL Stylesheets V1.52.2', 'Keywords': 'Python, Dive Into Python, tutorial, object-oriented, programming, documentation, book, free', 'Producer': 'htmldoc 1.8.23 Copyright 1997-2002 Easy Software Products, All Rights Reserved.', 'Title': 'Dive Into Python'}] 

Для получения дополнительной информации просмотрите этот учебник: легкий анализатор XMP для извлечения метаданных PDF в Python .

Для Python 3 см. PyPDF2 с примером кода из @Khaleel, обновленным до:

 from PyPDF2 import PdfFileReader pdf_toread = PdfFileReader(open("test.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print(str(pdf_info)) 

Установите с помощью pip install PyPDF2 .

Я реализовал это с помощью pyPdf . См. Пример кода ниже.

 from pyPdf import PdfFileReader pdf_toread = PdfFileReader(open("doc2.pdf", "rb")) pdf_info = pdf_toread.getDocumentInfo() print str(pdf_info) 

Вывод:

 {'/Title': u'Microsoft Word - Agnico-Eagle - Complaint (00040197-2)', '/CreationDate': u"D:20111108111228-05'00'", '/Producer': u'Acrobat Distiller 10.0.0 (Windows)', '/ModDate': u"D:20111108112409-05'00'", '/Creator': u'PScript5.dll Version 5.2.2', '/Author': u'LdelPino'} 

Для Python 3 и нового pdfminer (pip install pdfminer3k):

 import os from pdfminer.pdfparser import PDFParser from pdfminer.pdfparser import PDFDocument fp = open("foo.pdf", 'rb') parser = PDFParser(fp) doc = PDFDocument(parser) parser.set_document(doc) doc.set_parser(parser) if len(doc.info) > 0: info = doc.info[0] print(info) 
  • Печать PDF-документа с помощью модуля win32print python?
  • Как очистить таблицы в тысячах PDF-файлов?
  • Как сохранить цифры в pdf как растровые изображения в matplotlib
  • Можем ли мы создавать интерактивные формы PDF с помощью reportlab?
  • Цифровая подпись PDF-файлов
  • imagemagick wand сохраняет pdf-страницы в качестве изображений
  • Использование Reportlab Canvas. Как создать опцию для печати pdf, созданного в самом браузере?
  • Почему символ ID 160 не распознается как Unicode в PDFMiner?
  •  
    Interesting Posts for Van-Lav

    Как клонировать объект экземпляра модели Django и сохранять его в базе данных?

    Соберите каждую пару элементов из списка в кортежи в Python

    Как прорежировать через dict в случайном порядке в Python?

    В чем разница между «pylab» и «matplotlib.pyplot»?

    Как ускорить этот код Python?

    Python timedelta: не могу я просто получить в любое время единицы я хочу значение всей разницы?

    Django – Отношение «отношение» не существует. Не удается запустить python manage.py migrate?

    В файле настроек setup.py или pip, как контролировать порядок установки зависимостей пакетов?

    Tweedy Streaming API возвращает «Нет» для координат в твитах с поддержкой геоинформации

    Извлечение определенных строк из файла и создание разделов данных в python

    Удаленная отладка на pycharm

    Сплайны с Python (с использованием узлов управления и конечных точек)

    Как создать простой алгоритм градиентного спуска

    Paraview Python – обратная операция для servermanager.Fetch ()?

    Python: преобразование кадров GIF в PNG

    Python - лучший язык программирования в мире.