博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
pdfminer获取整页文本
阅读量:7224 次
发布时间:2019-06-29

本文共 827 字,大约阅读时间需要 2 分钟。

1 #! python2 2 # coding: utf-8 3  4 import sys 5 from cStringIO import StringIO 6 from pdfminer import pdfinterp 7 from pdfminer import pdfpage 8 from pdfminer import converter 9 from pdfminer import layout10 11 with file(path, 'rb') as fp:12     rsrcmgr = pdfinterp.PDFResourceManager()13     retstr = StringIO()14     codec = 'utf-8'15     laparams = layout.LAParams()16     device = converter.TextConverter(17         rsrcmgr, retstr, codec=codec, laparams=laparams)18     # Create a PDF interpreter object.19     interpreter = pdfinterp.PDFPageInterpreter(rsrcmgr, device)20     # Process each page contained in the document.21     pages = pdfpage.PDFPage.get_pages(fp)22     for page in pages:23         interpreter.process_page(page)24         data = retstr.getvalue()

 

转载于:https://www.cnblogs.com/Greenseer/p/9297885.html

你可能感兴趣的文章
HTML图片元素(标记)
查看>>
windows server 2008 域控安装
查看>>
编写高质量代码:改善Java程序的151个建议(第1章:JAVA开发中通用的方法和准则___建议6~10)...
查看>>
Oracle查看和修改连接数(进程/会话/并发等等)
查看>>
【SpringMVC学习06】SpringMVC中的数据校验
查看>>
Laravel错误与日志处理
查看>>
微信小程序开发教程第七章:微信小程序编辑名片页面开发
查看>>
Java并发编程:Java ConcurrentModificationException异常原因和解决方法
查看>>
浅谈iOS中MVVM的架构设计
查看>>
node.js 中模块的循环调用问题详解
查看>>
ActiveReports 报表应用教程 (6)---分组报表
查看>>
OLEDB操作Excel
查看>>
struts2的json-default和struts-default的区别
查看>>
java中<> 的用法
查看>>
IIS 下配置无后缀的URL ReWrite
查看>>
对Asp.net Mvc 和 jQuery UI使用者的一些忠告
查看>>
Silverlight开发历程—动画(实现跑马灯效果)
查看>>
怎么说???
查看>>
[原]Windows批处理命令学习一
查看>>
AaronYang风格 C语言挑讲[一][基本入门]
查看>>