pdfminer获取整页文本-白红宇

pdfminer获取整页文本

阅读量：7224 次

发布时间：2019-06-29

本文共 827 字，大约阅读时间需要 2 分钟。

1 #! python2 2 # coding: utf-8 3  4 import sys 5 from cStringIO import StringIO 6 from pdfminer import pdfinterp 7 from pdfminer import pdfpage 8 from pdfminer import converter 9 from pdfminer import layout10 11 with file(path, 'rb') as fp:12     rsrcmgr = pdfinterp.PDFResourceManager()13     retstr = StringIO()14     codec = 'utf-8'15     laparams = layout.LAParams()16     device = converter.TextConverter(17         rsrcmgr, retstr, codec=codec, laparams=laparams)18     # Create a PDF interpreter object.19     interpreter = pdfinterp.PDFPageInterpreter(rsrcmgr, device)20     # Process each page contained in the document.21     pages = pdfpage.PDFPage.get_pages(fp)22     for page in pages:23         interpreter.process_page(page)24         data = retstr.getvalue()

转载于:https://www.cnblogs.com/Greenseer/p/9297885.html

你可能感兴趣的文章

HTML图片元素（标记）

查看>>

windows server 2008 域控安装

查看>>

编写高质量代码:改善Java程序的151个建议(第1章:JAVA开发中通用的方法和准则___建议6~10)...

查看>>

Oracle查看和修改连接数(进程/会话/并发等等)

查看>>

【SpringMVC学习06】SpringMVC中的数据校验

查看>>