Adapt to PDFMiner's breaking interface changes (#37).

2025-07-15 14:08:21 +02:00 · 2013-12-07 07:12:19 +08:00 · 2013-12-07 07:12:19 +08:00 · 380bc289b3
commit 380bc289b3
parent 713776af67
6 changed files with 8 additions and 15 deletions
--- a/pdfparanoia/parser.py
+++ b/pdfparanoia/parser.py
@ -16,6 +16,7 @@ except ImportError: # py3k
 # from pdfquery import PDFQuery

 import pdfminer.pdfparser
+import pdfminer.pdfdocument

 from .eraser import replace_object_with

@ -28,9 +29,7 @@ def parse_pdf(handler):

    # setup for parsing
    parser = pdfminer.pdfparser.PDFParser(handler)
-    doc = pdfminer.pdfparser.PDFDocument()
-    parser.set_document(doc)
-    doc.set_parser(parser)
+    doc = pdfminer.pdfdocument.PDFDocument(parser)

    # actual parsing
    doc.initialize()
@ -58,8 +57,7 @@ def deflate(content):
    pdf = parse_content(content)

    # get a list of all object ids
-    xrefs = pdf._parser.read_xref()
-    xref = xrefs[0]
+    xref = pdf.xrefs[0]
    objids = xref.get_objids()

    # store new replacements
--- a/pdfparanoia/plugins/aip.py
+++ b/pdfparanoia/plugins/aip.py
@ -25,8 +25,7 @@ class AmericanInstituteOfPhysics(Plugin):
        pdf = parse_content(content)

        # get a list of all object ids
-        xrefs = pdf._parser.read_xref()
-        xref = xrefs[0]
+        xref = pdf.xrefs[0]
        objids = xref.get_objids()

        # check each object in the pdf
--- a/pdfparanoia/plugins/ieee.py
+++ b/pdfparanoia/plugins/ieee.py
@ -22,8 +22,7 @@ class IEEEXplore(Plugin):
        pdf = parse_content(content)

        # get a list of all object ids
-        xrefs = pdf._parser.read_xref()
-        xref = xrefs[0]
+        xref = pdf.xrefs[0]
        objids = xref.get_objids()

        # check each object in the pdf
--- a/pdfparanoia/plugins/jstor.py
+++ b/pdfparanoia/plugins/jstor.py
@ -44,8 +44,7 @@ class JSTOR(Plugin):
        pdf = parse_content(content)

        # get a list of all object ids
-        xrefs = pdf._parser.read_xref()
-        xref = xrefs[0]
+        xref = pdf.xrefs[0]
        objids = xref.get_objids()

        # check each object in the pdf
--- a/pdfparanoia/plugins/rsc.py
+++ b/pdfparanoia/plugins/rsc.py
@ -42,8 +42,7 @@ class RoyalSocietyOfChemistry(Plugin):
            pdf = parse_content(content)

            # get a list of all object ids
-            xrefs = pdf._parser.read_xref()
-            xref = xrefs[0]
+            xref = pdf.xrefs[0]
            objids = xref.get_objids()

            # check each object in the pdf
--- a/pdfparanoia/plugins/sciencemagazine.py
+++ b/pdfparanoia/plugins/sciencemagazine.py
@ -27,8 +27,7 @@ class ScienceMagazine(Plugin):
        pdf = parse_content(content)

        # get a list of all object ids
-        xrefs = pdf._parser.read_xref()
-        xref = xrefs[0]
+        xref = pdf.xrefs[0]
        objids = xref.get_objids()

        # check each object in the pdf