基于百度翻译API的火车头PHP翻译插件,可以翻译HTML片段

关于火车头的百度翻译插件,相信大家在火车头官网或网上都能找到相关代码,百度翻译插件是PHP写的,就一个PHP文件,简单灵活,不受火车头软件版本限制,任何有PHP插件权限的火车头版本都可以使用。但是百度API翻译有一个致命的缺陷,就是不支持html代码翻译,如果采集的字段包含html片段,那翻译完全就错乱了,没法正常使用,下面给大家分享一个简易翻译html代码片段的方法。

<?phpdefine("CURL_TIMEOUT",   30); 
define("URL",            "http://api.fanyi.baidu.com/api/trans/vip/translate"); 
define("APP_ID",         ""); //替换为您的APPID
define("SEC_KEY",        "");//替换为您的密钥
define("FROM",    	     "en");//采集的源语言标识码,默认为中文“zh”
define("TO",    	     "zh");//翻译后的目标语言标识码,默认翻译为英文“en”function translate($query)
{$args = array('q' => $query,'appid' => APP_ID,'salt' => rand(10000,99999),'from' => FROM,'to' => TO,);$args['sign'] = buildSign($query, APP_ID, $args['salt'], SEC_KEY);$ret = call(URL, $args);$ret = json_decode($ret, true);if (isset($ret['error_code'])) {switch ($ret['error_code']) {case 52003:return "错误代码(".$ret['error_code']."):APP_ID不正确,请检查您填写的APP_ID是否和百度翻译开放平台申请的一致。";break;case 54001:return "错误代码(".$ret['error_code']."):密钥不正确,请检查您填写的密钥是否和百度翻译开放平台申请的一致。";break;case 54000:return "错误代码(".$ret['error_code']."):翻译内容为空,请检查您的采集规则是否正确,出现本错误可能软件未采集到内容。";break;case 54004:return "错误代码(".$ret['error_code']."):余额不足,您的免费字符已用完或余额不足,请登陆百度翻译开放平台充值。";break;case 58001:return "错误代码(".$ret['error_code']."):译文语言方向错误,请检查您设置的目标语言标识码是否正确。";break;default:return "错误代码(".$ret['error_code']."):不可预知的错误,https://tpl.sryun.net";break;}}return $ret["trans_result"]["0"]["dst"]; 
}function buildSign($query, $appID, $salt, $secKey)
{$str = $appID . $query . $salt . $secKey;$ret = md5($str);return $ret;
}function call($url, $args=null, $method="post", $testflag = 0, $timeout = CURL_TIMEOUT, $headers=array())
{$ret = false;$i = 0; while($ret === false) {if($i > 1)break;if($i > 0) {sleep(1);}$ret = callOnce($url, $args, $method, false, $timeout, $headers);$i++;}return $ret;
}function callOnce($url, $args=null, $method="post", $withCookie = false, $timeout = CURL_TIMEOUT, $headers=array())
{$ch = curl_init();if($method == "post") {$data = convert($args);curl_setopt($ch, CURLOPT_POSTFIELDS, $data);curl_setopt($ch, CURLOPT_POST, 1);}else {$data = convert($args);if($data) {if(stripos($url, "?") > 0) {$url .= "&$data";}else {$url .= "?$data";}}}curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);if(!empty($headers)) {curl_setopt($ch, CURLOPT_HTTPHEADER, $headers);}if($withCookie){curl_setopt($ch, CURLOPT_COOKIEJAR, $_COOKIE);}$r = curl_exec($ch);curl_close($ch);return $r;
}function convert(&$args)
{$data = '';if (is_array($args)){foreach ($args as $key=>$val){if (is_array($val)){foreach ($val as $k=>$v){$data .= $key.'['.$k.']='.rawurlencode($v).'&';}}else{$data .="$key=".rawurlencode($val)."&";}}return trim($data, "&");}return $args;
}// function translateHTML($html)
// {
//     // 使用正则表达式保护HTML标签不被翻译
//     $html = preg_replace_callback('/<[^>]+>|[^<]+/', function($matches) {
//         $segment = $matches[0];
//         if (preg_match('/<[^>]+>/', $segment)) {
//             // 这是一个HTML标签,直接返回
//             return $segment;
//         } else {
//             // 这是文本内容,进行翻译
//             return translate($segment);
//         }
//     }, $html);//     return $html;
// }//逐词逐句分割翻译-并不精准,勉强刊用
// function translateHTML($html)
// {
//     // 使用正则表达式保护HTML标签不被翻译
//     $parts = preg_split('/(<[^>]+>)/', $html, -1, PREG_SPLIT_DELIM_CAPTURE);
//     $translatedHTML = '';//     foreach ($parts as $part) {
//         if (preg_match('/<[^>]+>/', $part)) {
//             // 这是一个HTML标签,直接附加
//             $translatedHTML .= $part;
//         } else {
//             // 这是文本内容,进行逐词或逐句翻译
//             $translatedHTML .= translateTextBySentence($part);
//         }
//     }//     return $translatedHTML;
// }// function translateTextBySentence($text) {
//     // 使用句号分割句子
//     $sentences = preg_split('/([.!?]+)/', $text, -1, PREG_SPLIT_DELIM_CAPTURE);
//     $translated = '';
//     foreach ($sentences as $sentence) {
//         if (trim($sentence) !== '') {
//             $translated .= translate($sentence);
//         }
//     }
//     return $translated;
// }//特定标签翻译
function translateContent($html)
{$pattern = '/(<div class="ariticle-body">)(.*?)(<br\s*\/?>)/is';$html = preg_replace_callback($pattern, function ($matches) {$contentToTranslate = strip_tags($matches[2]);$translatedContent = translate($contentToTranslate);return $matches[1] . $translatedContent . $matches[3];}, $html);return $html;
}if($LabelArray['PageType']=="Save")
{/*** 下面的内容需要根据火车头的采集规则进行修改,一行为一个需要翻译的标签。* 后面的为采集到的原始标签,前面的为翻译后的标签。* 这里的标签名必须和采集规则里的标签名一致,否则无法翻译。*/$LabelArray['翻译的标题'] = translate($query = $LabelArray['标题']);$LabelArray['翻译的内容'] = translateContent($query = $LabelArray['内容']);$LabelArray['翻译的描述'] = translate($query = $LabelArray['描述']);
}
echo serialize($LabelArray);?>

代码的关键就在于translateContent函数,因为我采集的数据字段都是英文,需要翻译为中文,字段包含在标签<div class="ariticle-body"><br/>标签之间,所以我只需要翻译这之间的文本就可以,翻译完成之后,并将翻译结果插入回原始HTML中。

我注释掉的translateHTML函数,也可以整段的翻译内容字段,只是效果并不是很完美,因为百度翻译不支持大段文本翻译,只能是逐句分割翻译,所以就弃用了,大家可以私下进行调试修改。

我不知道火车头是否能完美的支持php类和扩展,我测试的是不支持,可能是我不熟悉,也没深入研究,不然翻译效果可能会更好。有需要的朋友试试吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/849068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习中的弱监督学习

深度学习中的弱监督学习 弱监督学习&#xff08;Weakly Supervised Learning&#xff09;是一种介于监督学习和无监督学习之间的机器学习方法。它在有限、部分或不完全标注的数据上进行训练&#xff0c;旨在利用这些不完美的标签信息来学习有效的模型。弱监督学习在深度学习中…

如何通过 4 种方式备份和恢复Android联系人

毫无疑问&#xff0c;联系人是Android手机上存储的最重要的信息之一。为了保护这些重要数据&#xff0c;明智的做法是对Android手机进行联系人备份。如果您的手机发生任何情况导致数据丢失&#xff0c;例如被盗、系统崩溃或物理损坏&#xff0c;您可以再次将备份中的联系人恢复…

c# 下 ScintillaNET 显示XML信息并折叠节点

winform下显示XML信息&#xff08;非WPF&#xff09; 之前使用的是FastColoredTextBox&#xff0c;github地址如下&#xff1a; https://github.com/PavelTorgashov/FastColoredTextBox 但是有个问题&#xff0c;它支持中文&#xff0c;wordwraptrue&#xff0c;自动换行时&…

springboot aop学习

依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-…

Spring-Cloud-Gateway-实现XSS、SQL注入拦截

XSS和SQL注入是Web应用中常见计算机安全漏洞&#xff0c;文章主要分享通过Spring Cloud Gateway 全局过滤器对XSS和SQL注入进行安全防范。 写这篇文章也是因为项目在经过安全组进行安全巡检时发现项目存储该漏洞后进行系统整改&#xff0c;本文的运行结果是经过安全组验证通过。…

玩物科技:引领物联网时代的创新先锋

在深圳这座充满活力和创新精神的城市&#xff0c;有一家年轻而充满潜力的公司正在悄然改变我们的日常生活。深圳市玩物科技有限公司自2017年成立以来&#xff0c;凭借其卓越的技术和创新理念&#xff0c;逐渐成为物联网时代的先锋力量。 玩物科技的愿景与使命 玩物科技的核心…

【vue3响应式原理】

# 源码结构 源码位置是在packages文件件内&#xff0c;实际上源码主要分为两部分&#xff0c;编译器和运行时环境 1. 编译器 compiler-core 核心编译逻辑compiler-dom 针对浏览器平台编译逻辑compiler-sfc 针对单文件组件编译逻辑compiler-ssr 针对服务端渲染编译逻辑 2. 运行时…

使用kafka tools工具连接带有用户名密码的kafka

使用kafka tools工具连接带有用户名密码的kafka 创建kafka连接&#xff0c;配置zookeeper 在Security选择Type类型为SASL Plaintext 在Advanced页面添加如下图红框框住的内容 在JAAS_Config加上如下配置 需要加的配置&#xff1a; org.apache.kafka.common.security.plain.Pla…

企业数字化转型的主要方面有哪些?

本人研究企业数字化转型10余年&#xff0c;为企业软件选型、数字化提供咨询服务&#xff01;目前重点研究低代码数字化转型玩法&#xff0c;力争为各行各业探索出一条最具性价比的数字化方式。 关于“企业数字化转型包括哪些方面”这个问题&#xff0c;咱先来看个例子哈~ 比如…

用负载绿原酸的纳米复合水凝胶调节巨噬细胞表型以加速伤口愈合

引用信息 文 章&#xff1a;Modulating macrophage phenotype for accelerated wound healing with chlorogenic acid-loaded nanocomposite hydrogel. 期 刊&#xff1a;Journal of Controlled Release&#xff08;影响因子&#xff1a;10.8&#xff09; 发表时间&a…

基于pytoch卷积神经网络水质图像分类实战

具体怎么学习pytorch&#xff0c;看b站刘二大人的视频。 完整代码&#xff1a; import numpy as np import os from PIL import Image import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data…

resultType的类型错误

resultType的类型错误&#xff0c;不能是List而应该是对应的返回Bean对象的类型&#xff0c;VO 这里是引用 org.mybatis.spring.MyBatisSystemException: nested exception is org.apache.ibatis.exceptions.PersistenceException: Error querying database. Cause: java.lang…

opencv进阶 ——(十二)基于三角剖分实现人脸对齐

三角剖分概念 三角剖分&#xff08;Triangulation&#xff09;是一种将多边形或曲面分解为一系列互不相交的三角形的技术&#xff0c;它是计算几何、计算机图形学、地理信息系统、工程和科学计算中的一个基本概念。通过三角剖分&#xff0c;复杂的形状可以被简化为基本的三角…

病理级Polymer酶标二抗IHC试剂盒上线!

免疫组织化学 Immunohistochemistry,lHC 是利用抗体与抗原特异性识别原理&#xff0c;对组织样本中的抗原进行定位/定性分析的实验技术。组织切片保留了样品的解剖学结构特征&#xff0c;从而可以高分辨率地显现蛋白在细胞&#xff0c;甚至细胞器中的定位。基于以上特性&…

生物相容性CY5.5-D-甘露糖细胞生物学研究

随着生物医学研究的深入发展&#xff0c;荧光标记技术在细胞生物学中的应用日益广泛。其中&#xff0c;CY5.5-D-甘露糖作为一种新型的荧光标记物&#xff0c;不仅继承了CY5.5荧光染料的光学性能&#xff0c;还结合了D-甘露糖的生物学特性&#xff0c;因此在细胞成像、药物研发等…

DBus 在Qt和C++中的使用Demo

一、DBus DBus&#xff08;D-Bus&#xff09;是一种跨进程通信机制&#xff0c;是一种消息总线系统。DBus提供了一种在应用程序之间进行通信和交互的方式&#xff0c;可以在不同的进程之间传递消息&#xff0c;并提供了一套API供开发者使用。 二、Qt中使用 功能&#xff1a;先获…

Apple - Image I/O Programming Guide

翻译自&#xff1a;Image I/O Programming Guide&#xff08;更新时间&#xff1a;2016-09-13 https://developer.apple.com/library/archive/documentation/GraphicsImaging/Conceptual/ImageIOGuide/imageio_intro/ikpg_intro.html#//apple_ref/doc/uid/TP40005462 文章目录 …

orbslam2代码解读(1):数据预处理过程

写orbslam2代码解读文章的初衷 首先最近陆陆续续花了一两周时间学习视觉slam&#xff0c;因为之前主要是做激光slam&#xff0c;有一定基础所以学的也比较快&#xff0c;也是看完了视觉14讲的后端后直接看orbslam2的课&#xff0c;看的cvlife的课&#xff08;课里大部分是代码…

jenkins的简单使用

2.1.简介 Jenkins是一个开源软件项目&#xff0c;是基于Java开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;旨在提供一个开放易用的软件平台&#xff0c;使软件的持续集成变成可能。 2.4.Jenkins安装 1.下载安装包jenkins.war&#xff1b; 2.在安装…

笔记 | 软件工程04:软件项目管理

1 软件项目及其特点 1.1 什么是项目 1.2 项目特点 1.3 影响项目成功的因素 1.4 什么是软件项目 针对软件这一特定产品和服务的项目努力开展“软件开发活动",&#xff08;理解&#xff1a;软件项目是一种活动&#xff09; 1.5 软件项目的特点 1.6 军用软件项目的特点 2 …