使用PyPDF2、reportlab和google翻译实现对英文pdf文档的自动翻译
2018-01-19 19:00
267 查看
前言
工作中遇到很多时候需要阅读英文PDF文档,英文读起来比较费劲,阅读效率也比较低,于是就想有没有办法自动把英文PDF自动翻译成中文呢?答案是肯定的,虽然有道词典这些工具可以自动取词翻译,但都是只能单个词的翻译,而现在google翻译已经做得非常好非常好准确了,可以整段整段的翻译,这对于辅助阅读,提高阅读效率是很有帮助的。有了想法,马上就说干就干,思路就是读取PDF每页进行处理,调用google翻译的接口翻译成中文后后生成新的一页PDF,然后插入到原PDF页的后面,这样方便对照英文原文来看。
PDF读取和写入
PDF的读取和写入,可以使用PyPDF2方案,直接使用 pip 安装就可以了pip install PyPDF2
PyPDF2 包含了 PdfFileReader PdfFileMerger PageObject PdfFileWriter 四个常用的主要 Class,其中PdfFileReader是用来读取pdf的,PdfFileWriter用来写pdf文件的,PageObject代表pdf每页的对象结构。
读取PDF文件的代码,这是获取所有页的文本:
from PyPDF2.pdf import PdfFileReader, PdfFileWriter, ContentStream def getDataUsingPyPdf2(filename): pdf = PdfFileReader(open(filename, "rb")) content = "" num = pdf.getNumPages() for i in range(0, num): extractedText = pdf.getPage(i).extractText() content += extractedText + "\n" return content
我们需要对每一页的文本进行翻译处理:
def dopage(page): content = page["/Contents"].getObject() if not isinstance(content, ContentStream): content = ContentStream(content, pdf) text = u_("") for operands, operator in content.operations: #print operator, operands if operator == b_("Tj"): _text = operands[0] if isinstance(_text, TextStringObject): text += _text + " " elif operator == b_("rg"): text += "\n" elif operator == b_("T*"): text += "\n" elif operator == b_("'"): text += "\n" _text = operands[0] if isinstance(_text, TextStringObject): text += operands[0] + " " elif operator == b_('"'): _text = operands[2] if isinstance(_text, TextStringObject): text += _text + " " elif operator == b_("TJ"): for i in operands[0]: if isinstance(i, TextStringObject): text += i text += " " texts = 4000 text.split('. ') results='' for i in range(len(texts)): try: results = results + translate(str(texts[i])) + "\n" except Exception as e: print e return results
这个函数其实是从extractText摘取出来的,只是为了更灵活的对文本进行处理而已,因为PDF的文本是割裂的,需要拼接起来,这个其实没完全处理好,只是做了简单的处理。
翻译方案
翻译采用的是google翻译,是从网上直接摘取的代码,做了少许修改优化,改成支持中文的,并且修改了翻译输出结果不完整的bug#-*- coding:utf-8 -* import re import execjs import urllib,urllib2 import sys import json reload(sys) sys.setdefaultencoding( "utf-8" ) class Py4Js(): def __init__(self): self.ctx = execjs.compile(""" function TL(a) { var k = ""; var b = 406644; var b1 = 3293161072; var jd = "."; var $b = "+-a^+6"; var Zb = "+-3^+b+-f"; for (var e = [], f = 0, g = 0; g < a.length; g++) { var m = a.charCodeAt(g); 128 > m ? e[f++] = m : (2048 > m ? e[f++] = m >> 6 | 192 : (55296 == (m & 64512) && g + 1 < a.length && 56320 == (a.charCodeAt(g + 1) & 64512) ? (m = 65536 + ((m & 1023) << 10) + (a.charCodeAt(++g) & 1023), e[f++] = m >> 18 | 240, e[f++] = m >> 12 & 63 | 128) : e[f++] = m >> 12 | 224, e[f++] = m >> 6 & 63 | 128), e[f++] = m & 63 | 128) } a = b; for (f = 0; f < e.length; f++) a += e[f], a = RL(a, $b); a = RL(a, Zb); a ^= b1 || 0; 0 > a && (a = (a & 2147483647) + 2147483648); a %= 1E6; return a.toString() + jd + (a ^ b) }; function RL(a, b) { var t = "a"; var Yb = "+"; for (var c = 0; c < b.length - 2; c += 3) { var d = b.charAt(c + 2), d = d >= t ? d.charCodeAt(0) - 87 : Number(d), d = b.charAt(c + 1) == Yb ? a >>> d: a << d; a = b.charAt(c) == Yb ? a + d & 4294967295 : a ^ d } return a } """) def getTk(self, text): return self.ctx.call("TL", text) def open_url(url): headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'} req = urllib2.Request(url=url, headers=headers) response = urllib2.urlopen(req) data = response.read().decode('utf-8') return data def translate(content): #print "content: ", content js = Py4Js() tk = js.getTk(content) texts = "" content = urllib2.quote(content) url = "http://translate.google.cn/translate_a/single?client=t" \ "&sl=EN&tl=zh-CN&hl=zh-CNdt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca" \ "&dt=rw&dt=rm&dt=ss&dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1" \ "&srcrom=0&ssel=0&tsel=0&kc=2&tk=%s&q=%s" % (tk, content) result = open_url(url) re = json.loads(result) str = "" for i in re[0]: if i[0]: str += i[0] #print " ========>", i[0] return str if __name__ == "__main__": text="您好" texts=text.split('.') results='' for i in range(len(texts)): try: results = results + translate(str(texts[i])) except Exception as e: print e print results
PDF页面生成
PDF页面生成采用的是reportlab方案,支持中文的话需要下载字体文件。PDF对换行处理也很麻烦,网上看了很多换行的方案,觉得都太复杂,还不如自己来实现换行,先用寻找换行符分割,然后每行42个字符,每drawString一行,坐标就就往下移即可,实现最简单的中文自动换行功能。import StringIO from reportlab.pdfgen import canvas from reportlab.lib.pagesizes import letter from reportlab.pdfbase import pdfmetrics from reportlab.pdfbase.ttfonts import TTFont pdfmetrics.registerFont(TTFont('msyh', 'Msyh.ttf')) filename = "test.pdf" pdf = PdfFileReader(open(filename, "rb")) pdf_output = PdfFileWriter() num = pdf.getNumPages() for i in range(0, num): print "do page: ", i page = pdf.getPage(i) pdf_output.addPage(page) cnstr = dopage(page) packet = StringIO.StringIO() can = canvas.Canvas(packet, pagesize=letter) can.setFont("msyh", 8) can.setFontSize(12) cnstrarr = cnstr.split("\n") top = 750 for strline in cnstrarr: for i in range(0, int(len(strline)/42)+1): can.drawString(50, top, strline[i*42:i*42+42]) top -= 20 print "strline: ", strline can.showPage() can.save() packet.seek(0) new_pdf = PdfFileReader(packet) pdf_output.addPage(new_pdf.getPage(0)) pdf_output.write(open("out.pdf", 'wb')) print "Success!!"
相关文章推荐
- python使用reportlab实现图片转换成pdf的方法
- 使用jfreechart和itext实现导出报表和表格到pdf文档
- 关于使用reportlab生成中文PDF文档
- Java使用wkhtmltox实现HTML代码生成PDF文档或者图片
- Java使用PDFBox开发包实现对PDF文档内容编辑与保存
- [置顶] 使用PageOffice实现文档(word,excel,pdf)在线预览编辑
- python使用reportlab实现图片转换成pdf的方法
- 使用Aspose.Pdf for .NET实现PDF文档到Excel、EPS、SVG等的转换
- Java 使用jacob实现各类办公文档(ppt,Excel,word,text,imge)转换成PDF
- Java使用wkhtmltox实现HTML代码生成PDF文档或者图片
- (开源,GPLv3)EbookCopier 实现(3) - 使用 iTextSharp 库生成 PDF 文档
- vue插件开发 使用pdf.js实现手机端在线预览pdf文档
- 使用PageOffice实现文档(word,excel,pdf)在线预览编辑
- vue插件开发之使用pdf.js实现手机端在线预览pdf文档的方法
- 使用C#给PDF文档添加注释的实现代码
- 使用Aspose.Pdf for .NET实现PDF文档到Excel、EPS、SVG等的转换
- android和JS交互,相互调用方法传值。不使用第三方实现原生加载word、ppt、pdf文档
- flex实现百度库文浏览文档使用word文档转pdf然后再用pdf转swf最后flex页面使用flexpaper显示文库数据
- Java使用Flying Saucer实现HTML代码生成PDF文档
- Android使用js方案实现在线浏览pdf文档