50 Star 314 Fork 78

celaraze / any-to-excel

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
pdf2excel.py 716 Bytes
一键复制 编辑 原始数据 按行查看 历史
Famio 提交于 2020-08-19 18:22 . 开源释出
import sys
import os
import ocr
import draw
import xlrd
import xlwt
import yaml_class
from xlutils.copy import copy
pdf_path = sys.argv[1]
pdf_name = os.path.split(pdf_path)[-1].split(".")[0]
print('doing')
# PDF按每页转为JPG文件
draw.pdf2jpg(pdf_path, './images_temp/'+pdf_name+'/')
# 使用ocr进行转换
config = yaml_class.get_yaml_data("config.yml")
jpg_name = './images_temp/'+pdf_name+'/0.jpg'
trans = ocr.OCR()
path_excel = trans.img_to_excel(
pdf_name,
image_path=jpg_name,
secret_id=config['secret_id'],
secret_key=config['secret_key'],
)
old_excel = xlrd.open_workbook(pdf_name+'.xlsx')
new_excel = copy(old_excel)
ws = new_excel.get_sheet(0)
new_excel.save(pdf_name+'.xls')
Python
1
https://gitee.com/celaraze/any-to-excel.git
git@gitee.com:celaraze/any-to-excel.git
celaraze
any-to-excel
any-to-excel
master

搜索帮助