python 实现docx指定语言翻译(不丢失格式)

我这边有个需求需要把一份docx翻译成指定语言的文档并且保存,研究了下,记录。

首先先安装依赖

pip install python-docx==1.1.2 googletrans==4.0.0rc1

 python-docx是用来读取docx的,googletrans使用来翻译的。

googletrans · PyPI

这个是官方文档,额外的用法可以再这里找到

然后就是使用.

传入文件名,后缀,需要翻译成的语言。我这里用的自动检测语言,但是翻译的速度就会慢一点,如果想要达到最快的翻译速度的话,最好就是指定源语言是什么。这样翻译出来需要一点点时间,但是不会丢失格式,约等于完美翻译。

from googletrans import Translatordef translate(self,filename,ext,to_language):after_filename=filename+self._add_suffix(to_language)output_file=os.path.join(self.upload_path, after_filename+ext)if not os.path.exists(output_file):translator = Translator()full_path=os.path.join(self.upload_path, filename+ext)doc = Document(full_path)for paragraph in doc.paragraphs:#读取每个段落,回车为结尾if paragraph.text.strip():translated_text = self._translate_text(paragraph.text, translator,to_language,filename)paragraph.text = translated_text.replace('Besides','') #因为有些时候会奇奇怪怪的出现这个翻译,就临时替换一下,之后再找具体解决方案for table in doc.tables:#读取所有表格内的内容,段落不会读取到表格,所以还要读取一次表格for row in table.rows:for cell in row.cells:if cell.text.strip():translated_text = self._translate_text(cell.text, translator,to_language,filename)cell.text = translated_text.replace('Besides','')doc.save(output_file)return after_filename,extdef _translate_text(self,text:str, translator:Translator,to_language:str,filename:str):translated = translator.translate(text, src=LANGUAGE_KEY.AUTO, dest=to_language)current_app.logger.info(f'====== In Translate {filename}, to language : {to_language} origin text : {text}, translated : {translated.text}')return translated.textdef _add_suffix(self,to_language):return SIGN.UNDERLINE+to_language

如果要获取他所有支持的语言,找这个常量

from googletrans.constants import LANGUAGES
LANGUAGES = {'af': 'afrikaans','sq': 'albanian','am': 'amharic','ar': 'arabic','hy': 'armenian','az': 'azerbaijani','eu': 'basque','be': 'belarusian','bn': 'bengali','bs': 'bosnian','bg': 'bulgarian','ca': 'catalan','ceb': 'cebuano','ny': 'chichewa','zh-cn': 'chinese (simplified)','zh-tw': 'chinese (traditional)','co': 'corsican','hr': 'croatian','cs': 'czech','da': 'danish','nl': 'dutch','en': 'english','eo': 'esperanto','et': 'estonian','tl': 'filipino','fi': 'finnish','fr': 'french','fy': 'frisian','gl': 'galician','ka': 'georgian','de': 'german','el': 'greek','gu': 'gujarati','ht': 'haitian creole','ha': 'hausa','haw': 'hawaiian','iw': 'hebrew','he': 'hebrew','hi': 'hindi','hmn': 'hmong','hu': 'hungarian','is': 'icelandic','ig': 'igbo','id': 'indonesian','ga': 'irish','it': 'italian','ja': 'japanese','jw': 'javanese','kn': 'kannada','kk': 'kazakh','km': 'khmer','ko': 'korean','ku': 'kurdish (kurmanji)','ky': 'kyrgyz','lo': 'lao','la': 'latin','lv': 'latvian','lt': 'lithuanian','lb': 'luxembourgish','mk': 'macedonian','mg': 'malagasy','ms': 'malay','ml': 'malayalam','mt': 'maltese','mi': 'maori','mr': 'marathi','mn': 'mongolian','my': 'myanmar (burmese)','ne': 'nepali','no': 'norwegian','or': 'odia','ps': 'pashto','fa': 'persian','pl': 'polish','pt': 'portuguese','pa': 'punjabi','ro': 'romanian','ru': 'russian','sm': 'samoan','gd': 'scots gaelic','sr': 'serbian','st': 'sesotho','sn': 'shona','sd': 'sindhi','si': 'sinhala','sk': 'slovak','sl': 'slovenian','so': 'somali','es': 'spanish','su': 'sundanese','sw': 'swahili','sv': 'swedish','tg': 'tajik','ta': 'tamil','te': 'telugu','th': 'thai','tr': 'turkish','uk': 'ukrainian','ur': 'urdu','ug': 'uyghur','uz': 'uzbek','vi': 'vietnamese','cy': 'welsh','xh': 'xhosa','yi': 'yiddish','yo': 'yoruba','zu': 'zulu',
}

如果需要手动检测语言,可以调用这个方法.

from googletrans import Translator
from googletrans.models import Detectedtranslator = Translator()
text_d:Detected=translator.detect(some_text)
lang_key=text_d.lang

可以看到他的source code是返回的一个 Detcted,直接.lang就可以拿到语言的key了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/40518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用Vue3和Rough.js绘制一个交互式3D图

本文由ScriptEcho平台提供技术支持 项目地址:传送门 基于Rough.js和GSAP创建交互式SVG图形卡片 应用场景 本代码适用于需要创建动态交互式SVG图形卡片的场景,例如网页设计、数据可视化和交互式艺术作品。 基本功能 该代码利用Rough.js和GSAP库&…

流批一体计算引擎-13-[Flink]RuntimeExecutionMode和水印策略Watermark Strategy

1 运行时执行模式RuntimeExecutionMode 数据流程序的运行时执行模式。除此之外,它还控制任务 调度、网络洗牌行为和时间语义。一些业务也将发生变化 它们根据配置的执行模式记录发射行为。 (1)RuntimeExecutionMode.STREAMING,管道将使用流语义执行。开始执行之前将部署所有…

Android中android.fg线程和android.ui线程分别代表什么?

Android中android.fg线程和android.ui线程分别代表什么? android.fg线程(FgThread): FgThread是Android系统中一个特殊的线程,其类定义大致为public final class FgThread extends ServiceThread。它主要用于提供一个…

gitignore

.gitignore 是一个在 Git 版本控制系统中使用的文件,它用于指定在 Git 仓库中哪些文件或目录应该被忽略,即不会被 Git 追踪或记录。这对于一些自动生成的、用户特定的或敏感的文件特别有用,比如编译后的目标文件、日志文件、配置文件中的密码…

前端学习(五)CSS浮动与补白

目录&#xff1a; 内容&#xff1a; //设置左右浮动 .left{float:left; } .right{float:right; } /*必须设置不同浮动*/ //创建div <div> <dic class"left">左边</div> <div class"right">右边</div> </div> //设置浮…

Spring 异常捕获后依旧回滚

问题抛出 在 Spring 的声明式事务中手动捕获异常&#xff0c;居然判定回滚了&#xff0c;例如 A 里面调用 B &#xff0c;C &#xff0c;C 里面抛出了异常&#xff0c;A 里面对 C 进行了 try catch 依然会回滚&#xff0c;上代码 EnableTransactionManagement SpringBootAppl…

地铁车厢火灾3D模拟逃生演习减少了资源损耗和风险

在消防安全领域&#xff0c;为了更好地提升安全实训效果&#xff0c;我们在VR安全培训领域打造了多款消防安全VR模拟实训系统&#xff0c;不仅实现了与现实世界无异的交互操作&#xff0c;更在虚拟空间中超越了现实的限制&#xff0c;模拟出那些现实中难以搭建的复杂场景。 利用…

mysql:部署MySQL 8.0 环境

mysql网址&#xff1a;MySQL 点击 MySQL Community Server 选择合适的版本 选择8.0版本 下载完成&#xff0c;点击mysql-installer-community-8.0.26.0.msi文件&#xff0c;打开安装向导。 选择自定义安装类型 打开“Select Products” 窗口&#xff0c;可以定制需要安装的产…

成都晨持绪:开一家抖音网店到底能不能赚钱

在数字化时代的浪潮中&#xff0c;抖音以其独特的魅力迅速占领了社交媒体的舞台。众多创业者纷纷把目光投向这个新兴平台&#xff0c;企图在短视频的海洋里找到属于自己的财富岛屿。但是&#xff0c;开一家抖音网店到底能不能赚钱呢? 我们要认识到&#xff0c;抖音作为一个流量…

lt6911UXC 国产原装 高性能HDMI2.0转MIPI DSI / CSI芯片方案 提供LT 开发资料包及在线软硬件技术支持!

1.说明 LT6911UXC是一款高性能HDMI2.0到MIPI DSI / CSI转换器&#xff0c;用于VR&#xff0c;智能电话&#xff0c;显示应用。 HDMI2.0输入支持高达6Gbps的数据速率&#xff0c;从而为4k 60Hz视频提供足够的带宽。还支持HDCP2.2进行数据解密。 对于MIPI DSI / CSI输出&#xf…

【路由交换技术】Cisco Packet Tracer基础入门教程(五)

这一期我们来学习端口聚合&#xff0c;这是针对交换机的技术 前言 不知道大家有没有注意到&#xff0c;我们之前的实验在交换机与交换机之间只用一条线连接&#xff0c;像这样 通过今天的学习&#xff0c;我们要用两条线来连接交换机&#xff0c;就像这样&#xff08;为了能…

人力资源中的人工智能:你应该知道的一切

人工智能已经成为行业讨论更广泛的突出话题。人力资源(HR)对于人力资源专业人士来说&#xff0c;了解这门课程也是如此。除了简要介绍什么是人工智能&#xff0c;以及你可能遇到的主要人工智能类型(或者你可能很快就会遇到它&#xff01;)此外&#xff0c;本文还将探讨人工智能…

10 个实用的 Python 使用技巧

Python 是一门功能强大且易于学习的编程语言&#xff0c;广泛应用于数据科学、机器学习、Web 开发等领域。本文将介绍 10 个实用的 Python 使用技巧&#xff0c;帮助你提升编程效率。 1. 列表生成式 列表生成式&#xff08;List Comprehension&#xff09;是一种简洁的创建列…

教程:Spring Boot中集成Memcached的详细步骤

教程&#xff1a;Spring Boot中集成Memcached的详细步骤 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01; 在现代应用开发中&#xff0c;缓存是提升性能和扩展性…

并发控制-事务的调度、数据不一致问题(更新丢失、脏读、不可重复读)、非串行调度的的可串行化

一、引言 1、数据库管理系统DBMS的事务处理技术实现的另一个主要功能部分是并发控制机制。并发控制机制完成的功能就是对并发执行的事务进行控制&#xff0c;保证事务的隔离性&#xff0c;从而进一步保持数据库的一致性。 2、事务的并发控制就是对并发执行的不同事务中的数据…

利用Python破解隔壁家的WiFi密码

文章目录 1&#xff0c;破解思路1.1&#xff0c;假定邻居家的WiFi密码长度是8位&#xff0c;且仅由0-9这10个数字&#xff0c;a-z这26个小写字母&#xff0c;A-Z这26个大写字母组成1.2&#xff0c; 用python程序对0-9&#xff0c;a-z&#xff0c;A-Z这62个元素进行排列组合。1.…

Java基础:爬虫

1.本地爬虫 Pattern:表示正则表达式 Matcher:文本匹配器&#xff0c;作用按照正则表达式的规则去读取字符串&#xff0c;从头开始读取。在大串中去找符合匹配规则的子串。 1.2.获取Pattern对象 通过Pattern p Pattern.compile("正则表达式");获得 1.3.…

从零开始:手把手教你部署 Node.js 项目

1. 本地项目打包 关闭本地项目后&#xff0c;在控制台执行以下命令进行打包&#xff1a; npm run build2. 将文件拷贝至服务器 将以下文件和文件夹拷贝至服务器&#xff1a; .nuxt 文件夹config 文件夹io 文件夹static 文件夹environment.js 文件nuxt.config.js 文件package.…

Electron:构建跨平台桌面应用的现代方法

环境搭建与Hello World main.js (主进程) const { app, BrowserWindow } require(electron)function createWindow () {// 创建一个新的浏览器窗口const mainWindow new BrowserWindow({width: 800, // 窗口宽度height: 600, // 窗口高度webPreferences: {nodeIntegration:…

【安全攻防】网络安全中的序列化与反序列

1.序列化与反序列化 首先要了解序列化与反序列化的定义&#xff0c;以及序列化反序列化所用到的基本函数。 序列化&#xff1a;把对象转换为字节序列的过程称为对象的序列化&#xff0c;相当于游戏中的存档。 PHP中的序列化函数serialize() **serialize()**函数用于序列化对…