tidyup

2026-01-19 23:07:59 +00:00
parent a5934e45b2
commit 370e97d08d
1 changed files with 0 additions and 270 deletions
--- a/python/pdfcreator/main.py
+++ b/python/pdfcreator/main.py
@@ -1,270 +0,0 @@
 import re
 from pypdf import PdfReader, PdfWriter
 from reportlab.pdfgen import canvas
 from reportlab.lib.pagesizes import LETTER
 from io import BytesIO
 # ================= CONFIG =================
 PDF_INPUTS = [
    {"file": "pdfcreator/input.pdf", "sections": ["1.3", "2.1", "@111-114"]},
    {"file": "pdfcreator/input2.pdf", "sections": ["3.2"]},
 ]
 OUTPUT_PDF = "pdfcreator/extracted_sections.pdf"
 HEADER_CROP = 0.12   # top of first page of section
 FOOTER_CROP = 0.06   # bottom of all pages
 # =========================================
 def strip_numbering(title):
    """
    Remove leading numbering from a string like '1.3 Background'
    Returns 'Background'.
    """
    return re.sub(r'^\d+(\.\d+)*\s+', '', title)
 # ---------- Outline utilities ------------
 def parse_page_range(entry):
    """
    Returns a list of zero-based page indices if entry is a page range.
    Page ranges must be prefixed with '@', e.g., "@1-10".
    Otherwise returns None (treated as section prefix).
    """
    if entry.startswith("@"):
        s = entry[1:]  # remove the @
        try:
            start, end = s.split("-")
            start = int(start) - 1  # zero-based
            end = int(end)          # inclusive in range
            return list(range(start, end))
        except ValueError:
            print(f"[WARN] Invalid page range: {entry}")
            return None
    return None  # not a page range
 def build_outline_tree(reader):
    def _build(outline):
        tree = []
        for item in outline:
            if isinstance(item, list):
                tree[-1]["children"] = _build(item)
            else:
                tree.append({
                    "title": item.title.strip(),
                    "page": reader.get_destination_page_number(item),
                    "children": []
                })
        return tree
    return _build(reader.outline)
 def find_section_with_level(nodes, prefix, level=0):
    for node in nodes:
        if node["title"].startswith(prefix):
            return node, level
        found = find_section_with_level(node["children"], prefix, level + 1)
        if found[0]:
            return found
    return None, None
 def collect_subtree_pages(node, pages=None):
    if pages is None:
        pages = []
    pages.append(node["page"])
    for child in node["children"]:
        collect_subtree_pages(child, pages)
    return pages
 def flatten_outline_pages(nodes, pages=None):
    if pages is None:
        pages = []
    for node in nodes:
        pages.append(node["page"])
        flatten_outline_pages(node["children"], pages)
    return pages
 def find_end_page(target_node, outline_tree, total_pages):
    subtree_pages = collect_subtree_pages(target_node)
    last_page = max(subtree_pages)
    all_pages = sorted(set(flatten_outline_pages(outline_tree)))
    for p in all_pages:
        if p > last_page:
            return p
    return total_pages
 # ---------- Page manipulation ------------
 def crop_page(page, top_ratio=0.0, bottom_ratio=0.0):
    llx, lly, urx, ury = page.mediabox
    height = ury - lly
    new_lly = lly + height * bottom_ratio
    new_ury = ury - height * top_ratio
    page.cropbox.lower_left = (llx, new_lly)
    page.cropbox.upper_right = (urx, new_ury)
 # ---------- TOC generation ---------------
 def create_toc_pdf(toc_entries, heading):
    buffer = BytesIO()
    c = canvas.Canvas(buffer, pagesize=LETTER)
    c.setFont("Helvetica-Bold", 16)
    c.drawString(50, 750, heading)
    c.setFont("Helvetica", 12)
    y = 720
    for entry in toc_entries:
        line = f"{strip_numbering(entry['title'])} ........................ {entry['page']}"
        c.drawString(50, y, line)  # flat: no indentation
        y -= 18
        if y < 50:
            c.showPage()
            c.setFont("Helvetica", 12)
            y = 750
    c.save()
    buffer.seek(0)
    return PdfReader(buffer)
 # ================= MAIN ===================
 content_writer = PdfWriter()
 toc_entries = []
 current_page = 0
 REFERENCE_BOX = None
 for pdf_info in PDF_INPUTS:
    reader = PdfReader(pdf_info["file"])
    outline_tree = build_outline_tree(reader)
    total_pages = len(reader.pages)
    for entry in pdf_info["sections"]:
        page_indices = parse_page_range(entry)
        if page_indices:
            # --- Explicit page range ---
            toc_entries.append({
                "title": f"Pages {entry[1:]}",  # remove '@' for display
                "page": current_page + 1,
                "level": 0
            })
            for i, p in enumerate(page_indices):
                if p < 0 or p >= total_pages:
                    print(
                        f"[WARN] Page {p+1} out of range in {pdf_info['file']}")
                    continue
                page = reader.pages[p]
                crop_page(page, top_ratio=HEADER_CROP,
                          bottom_ratio=FOOTER_CROP)
                if REFERENCE_BOX is None:
                    REFERENCE_BOX = (
                        page.cropbox.lower_left,
                        page.cropbox.upper_right
                    )
                page.mediabox.lower_left = REFERENCE_BOX[0]
                page.mediabox.upper_right = REFERENCE_BOX[1]
                page.cropbox.lower_left = REFERENCE_BOX[0]
                page.cropbox.upper_right = REFERENCE_BOX[1]
                content_writer.add_page(page)
                current_page += 1
        else:
            target, level = find_section_with_level(
                outline_tree, entry)
            if not target:
                print(
                    f"[WARN] Section {entry} not found in {pdf_info['file']}")
                continue
            start_page = target["page"]
            end_page = find_end_page(target, outline_tree, total_pages)
            toc_entries.append({
                "title": target["title"],          # EXACT heading text
                "page": current_page + 1,          # 1-based
                "level": level
            })
            for i, p in enumerate(range(start_page, end_page)):
                page = reader.pages[p]
                if i == 0:
                    crop_page(page, HEADER_CROP, FOOTER_CROP)
                else:
                    crop_page(page, bottom_ratio=FOOTER_CROP)
                # Capture reference AFTER cropping
                if REFERENCE_BOX is None:
                    REFERENCE_BOX = (
                        page.cropbox.lower_left,
                        page.cropbox.upper_right
                    )
                # Normalize page size
                page.mediabox.lower_left = REFERENCE_BOX[0]
                page.mediabox.upper_right = REFERENCE_BOX[1]
                page.cropbox.lower_left = REFERENCE_BOX[0]
                page.cropbox.upper_right = REFERENCE_BOX[1]
                content_writer.add_page(page)
                current_page += 1
 # ---------- Build final PDF ---------------
 final_writer = PdfWriter()
 # Derive TOC heading from first source document
 first_reader = PdfReader(PDF_INPUTS[0]["file"])
 toc_heading = "Contents" if first_reader.outline else "Table of Contents"
 # Visible TOC pages
 toc_pdf = create_toc_pdf(toc_entries, toc_heading)
 toc_page_count = len(toc_pdf.pages)
 for page in toc_pdf.pages:
    final_writer.add_page(page)
 # Content pages
 for page in content_writer.pages:
    final_writer.add_page(page)
 bookmark_stack = {}
 for entry in toc_entries:
    parent = bookmark_stack.get(entry["level"] - 1)
    bm = final_writer.add_outline_item(
        title=entry["title"],                       # exact heading text
        page_number=(entry["page"] - 1) + toc_page_count,
        parent=parent
    )
    bookmark_stack[entry["level"]] = bm
 # ---------- Write output ------------------
 with open(OUTPUT_PDF, "wb") as f:
    final_writer.write(f)
 print(f"[OK] Created {OUTPUT_PDF}")