目录
实战场景Python PDF 实战编码补充实战场景
Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:
(资料图片)
提取 PDF 中的文字将 PDF 中每页转换为图片word 转换为PDFPDF生成,编辑,导入导出PDF在线渲染除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。
本次实战选择 pdfplumber
库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。
> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple
pdfplumber
库具备如下特点:
Python PDF 实战编码
下面可以编写 PDF 操作的基础代码。
import pdfplumber with pdfplumber.open("./dddd.pdf") as pdf: for page in pdf.pages: print(page.extract_text()) # 每页打印一分页分隔 print("---------- 分页分隔 ----------")
导入 pdfplumber
模块之后,使用 pdfplumber.open("./dddd.pdf")
打开本地 pdf 文件,然后通过 pdf.pages
遍历所有页,在通过页对象的 .extract_text()
方法,提取文本信息。
pdfplumber.open()方法的签名如下所示:
pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })
其中各参数描述如下:
file_name
:文件名,必选参数;password
:PDF的密码;laparams
:布局参数。
除此之外,如果希望读取 PDF,还可以使用 load()
方法,该方法也会返回 pdfplumber.PDF
类的实例。
pdfplumber.PDF
对象实例,主要有两个重要属性:
.metadata
:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;.pages
:包含 pdfplumber.Page
实例的列表,每一个实例代表PDF每一页的信息。
上文提及的 pdfplumber.Page
实例是 pdfplumber
的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:
page_number
:页码顺序,第一页的序号是 1;witdh
:宽度;height
:高度;.objects/.chars/.lines/.rects/.curves/.figures/.images
:获取PDF页中的重要数据。
核心方法如下所示:
extract_text()
:提取页中的文本;extract_words()
:提取所有单词及其相关信息;extract_tables()
: 提取页面的表格。
extract_text()
呈现结果
extract_words()
呈现结果
extract_tables()
呈现效果,由于 PDF 中无表格,所有每页得到的都是空!
补充
当然Python除了读取PDF文件,还有一些其他功能,例如加密PDF,旋转和叠加页面等,下面是实现的示例代码
旋转和叠加页面
import PyPDF2 from PyPDF2.pdf import PageObject # 创建一个读PDF文件的Reader对象 reader = PyPDF2.PdfFileReader("resources/XGBoost.pdf") # 创建一个写PDF文件的Writer对象 writer = PyPDF2.PdfFileWriter() # 对PDF文件所有页进行循环遍历 for page_num in range(reader.numPages): # 获取指定页码的Page对象 current_page = reader.getPage(page_num) # type: PageObject if page_num % 2 == 0: # 奇数页顺时针旋转90度 current_page.rotateClockwise(90) else: # 偶数页反时针旋转90度 current_page.rotateCounterClockwise(90) writer.addPage(current_page) # 最后添加一个空白页并旋转90度 page = writer.addBlankPage() # type: PageObject page.rotateClockwise(90) # 通过Writer对象的write方法将PDF写入文件 with open("resources/XGBoost-modified.pdf", "wb") as file: writer.write(file)
加密PDF文件
import PyPDF2 reader = PyPDF2.PdfFileReader("resources/XGBoost.pdf") writer = PyPDF2.PdfFileWriter() for page_num in range(reader.numPages): writer.addPage(reader.getPage(page_num)) # 通过encrypt方法加密PDF文件,方法的参数就是rre #设置的密码 writer.encrypt("foobared") with open("resources/XGBoost-encrypted.pdf", "wb") as file: writer.write(file)
批量添加水印
import PyPDF2 from PyPDF2.pdf import PageObject reader1 = PyPDF2.PdfFileReader("resources/XGBoost.pdf") reader2 = PyPDF2.PdfFileReader("resources/watermark.pdf") writer = PyPDF2.PdfFileWriter() # 获取水印页 watermark_page = reader2.getPage(0) for page_num in range(reader1.numPages): current_page = reader1.getPage(page_num) # type: PageObject current_page.mergePage(watermark_page) # 将原始页和水印页进行合并 writer.addPage(current_page) # 将PDF写入文件 with open("resources/XGBoost-watermarked.pdf", "wb") as file: writer.write(file)
到此这篇关于一文教会你用Python读取PDF文件的文章就介绍到这了,更多相关Python读取PDF文件内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
X 关闭
X 关闭
- 1现代和起亚上半年出口20万辆新能源汽车同比增长30.6%
- 2如何让居民5分钟使用到各种设施?沙特“线性城市”来了
- 3AMD实现连续8个季度的增长 季度营收首次突破60亿美元利润更是翻倍
- 4转转集团发布2022年二季度手机行情报告:二手市场“飘香”
- 5充电宝100Wh等于多少毫安?铁路旅客禁止、限制携带和托运物品目录
- 6好消息!京东与腾讯续签三年战略合作协议 加强技术创新与供应链服务
- 7名创优品拟通过香港IPO全球发售4100万股 全球发售所得款项有什么用处?
- 8亚马逊云科技成立量子网络中心致力解决量子计算领域的挑战
- 9京东绿色建材线上平台上线 新增用户70%来自下沉市场
- 10网红淘品牌“七格格”chuu在北京又开一家店 潮人新宠chuu能红多久