pdf用python读取的方法
这篇文章主要介绍pdf用python读取的方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
python中可以使用pdfminer库来读取PDF文件中的内容。
安装命令:
pipinstallpdfminer
pipinstallpdfminer3k
python中读取PDF文件代码:
fromurllib.requestimporturlopenfrompdfminer.pdfinterpimportPDFResourceManager,process_pdffrompdfminer.converterimportTextConverterfrompdfminer.layoutimportLAParamsfromioimportStringIOfromioimportopendefreadPDF(pdfFile):rsrcmgr=PDFResourceManager()retstr=StringIO()laparams=LAParams()device=TextConverter(rsrcmgr,retstr,laparams=laparams)process_pdf(rsrcmgr,device,pdfFile)device.close()content=retstr.getvalue()retstr.close()returncontentpdfFile=urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")outputString=readPDF(pdfFile)print(outputString)pdfFile.close()
解析pdf文件用到的类:
PDFParser:从一个文件中获取数据
PDFDocument:保存获取的数据,和PDFParser是相互关联的
PDFPageInterpreter处理页面内容
PDFDevice将其翻译成你需要的格式
PDFResourceManager用于存储共享资源,如字体或图像。
以上是pdf用python读取的方法的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注亿速云行业资讯频道!
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。